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出 版 说 明 


“十 二 五 ?时 期 ,是 我 国 全 面 实施 素质 教育 ,全 面 提高 高 等 教育 质 
量 , 深 化 教育 体制 改革 ,推动 教育 事业 科学 发 展 , 提 高 教育 现代 化 水 平 
的 时 期 。“ 十 二 五 ?伊始 ,统计 学 迎 来 了 历史 性 的 重大 变革 和 飞跃 。 
2011 年 2 月 ,在 国务 院 学 位 委员 会 第 28 次 会 议 通过 的 新 的 《学 位 授予 
和 人 才 培 养 学 科目 录 (2011)》( 以 下 简称 “学 科目 录 ”) 中 ,统计 学 从 数学 
和 经 济 学 中 独立 出 来 ,成 为 一 级 学 科 。 这 一 变革 和 飞跃 将 对 中 国 统计 
教育 事业 产生 巨大 而 深远 的 影响 ,中 国 统计 教育 事业 将 在 “十 二 五 ?时 
期 发 生 积 极 变化 。 

正 是 在 这 一 背景 下 ,全 国 统计 教材 编审 委员 会 制定 了 《“ 十 二 五 ”全 
国 统计 教材 建设 规划 》( 以 下 简称 “规划 ?)。 根 据 “ 学 科目 录 ” 在 统计 学 
下 设 有 数理 统计 学 ,社会 经 济 统计 学 ,生物 卫生 统计 学 ,金融 统计 、 风 险 
管理 与 精算 学 ,应 用 统计 5 个 二 级 学 科 的 构架 , “规划 ”对 “十 二 五 ”全 国 
统计 规划 教材 建设 作 了 全 面部 署 , 具 有 以 下 特点 : 

第 一 ,打破 以 往 统计 规划 教材 出 版 学 科 单 一 的 格局 。 全 面 发 展 数 
理 统 计 学 ,社会 经 济 统计 学 ,生物 卫生 统计 学 ,金融 统计 、 风 险 管理 与 精 
算 学 ,应 用 统计 5 个 二 级 学 科 规 划 教 材 的 出 版 ,使 “十 二 五 ?全 国 统计 规 
划 教 材 涵 盖 5 个 二 级 学 科 , 形 成 学 科 全 面 并 平衡 发 展 的 出 版 局 面 。 

第 二 ,打破 以 往 统计 规划 教材 出 版 层次 单一 的 格局 。 在 编写 出 版 
好 各 学 科 本 科 生 教材 的 基础 上 ,对 研究 生 教 材 出 版 进行 深入 研究 ,出 版 
一 批 高 水 平 高 层次 的 研究 生 教 材 ,为 我 国 研 究 生 教育 .尤其 是 应 用 统计 
研究 生 教 育 提供 教学 服务 。 同 时 ,积极 重视 统计 专科 教材 出 版 ,联合 各 
专科 院 校 ,组 织 编写 和 出 版 适应 统计 专科 教学 和 学 习 的 优秀 教材 。 

第 三 ,打破 以 往 统计 规划 教材 出 版 品种 单一 的 格局 。 鼓 励 内 容 创 
新 ,联系 统计 实践 ,具有 教学 内 容 和 教学 方法 特色 的 、 各 高 校 自 编 的 相 
同 内 容 选 题 的 精品 教材 出 版 ,促进 统计 教学 向 创新 性 、 创 造 性 和 多 样 性 


发 展 。 

第 四 ,重视 非 统 计 专 业 的 统计 教材 出 版 。 探 讨 对 非 统 计 专 业 学 生 
的 统计 教学 问题 ,为 非 统 计 专 业 学 生 组 织 编 写 和 出 版 概念 准确 、 叙 述 简 
绑 、 深 入 浅 出 、 表 达 方 式 活 泌 、 练 习题 赂 近 社 会 生活 的 统计 教材 ,使 统计 
思想 和 统计 理念 深入 非 统 计 专 业 学 生 , 以 达到 统计 教学 的 最 大 效果 。 

第 五 ,重视 配合 教师 教学 使 用 的 电子 课件 和 辅助 学 生 学 习 使 用 的 
电子 产品 的 配套 出 版 ,促进 高 校 统计 教学 电子 化 建设 ,以 期 最 后 能 形成 
系统 ,提高 统计 教育 现代 化 水 平 。 

第 六 ,重视 对 已 经 出 版 的 统计 规划 教材 的 培育 和 提高 ,本 着 去 粗 存 
精 、 去 旧 加 新 、 与 时 俱 进 的 原则 ,继续 优化 已 经 出 版 的 统计 教材 的 内 容 
和 写作 ,强化 配套 课件 和 习题 解答 ,使 它们 成 为 精品 ,最 后 锤炼 成 为 
经 典 。 

“十 二 五 "期间, 编审 委员 会 将 本 着 “ 重 质 量 , 求 创新 ,出 精品 , 育 经 
典 ”" 的 宗旨 ,组 织 我 国 统计 教育 界 专家 学 者 ,编写 和 编辑 出 版 好 本 轮 教 
材 。 本 轮 教材 出 版 后 ,将 能 够 形成 学 科 齐 全 、 层 次 分 明 、 品 种 多 样 . 配 套 
系统 的 高 质量 立体 式 结构 ,使 我 国 统计 规划 教材 建设 再 上 新 合 阶 , 这 将 
对 推动 我 国 统计 教育 和 统计 教材 改革 ,推动 我 国 统计 教育 事业 科学 发 
展 , 提 高 我 国 统 计 教育 现代 化 水 平 产生 积极 意义 。 

让 教师 的 教学 和 学 生 的 学 习 事半功倍 ,并 使 学 生 在 毕业 之 后 能 够 
学 以 致 用 的 统计 教材 ,是 本 轮 教 材 的 追求 。 编 审 委员 会 将 努力 使 本 轮 
教材 好 教 、 好 学 、 好 用 ,尽力 使 它们 在 内 容 上 和 形式 上 都 向 国外 先进 统 
计 教 材 看 齐 。 限 于 水 平和 经 验 ,在 教材 的 编写 和 编辑 出 版 过 程 中 仍 会 
有 不 足 , 晨 请 广大 师 生 和 社会 读者 提出 批评 和 建议 ,我 们 将 虚心 接受 ， 
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再 版 说 明 


这 本 书 已 经 有 了 近 十 年 的 历史 ,现在 将 要 出 第 四 版 。 前 面 三 版 已 
经 作为 参考 书 或 教科 书 在 许多 学 校 使 用 。 各 个 学 校 的 师 生 对 本 书 提出 
许多 宝贵 的 意见 ,并 且 指 出 了 很 多 错误 和 不 有 之 处 。 读 者 的 支持 和 鼓 
励 , 对 本 书 各 版 的 诞生 起 着 关键 的 作用 。 第 四 版 在 许多 地 方 对 前 面 几 
版 进行 了 修改 和 增 减 。 

免费 的 自由 编程 的 RR 软件 在 国际 上 已 经 成 为 统计 教学 和 科研 的 主 
要 软件 ,本 书 第 四 版 全 部 采用 民 软 件 来 描述 计算 过 程 ,彻底 放弃 了 使 用 
商业 软件 。R 软件 非常 强大 ,凡是 国际 上 出 现 的 新 方法 ,都 会 很 快 地 上 
传 到 RR 的 网 站 上 ,在 发 达 国 家 ,不 能 想象 一 个 统计 教师 或 者 统计 研究 生 
不 会 熟练 使 用 RR。 从 R 的 功能 和 使 用 者 的 人 数 来 说 , 它 已 经 远 远 超过 
所 有 昂贵 的 商业 软件 。R 软件 的 绝 大 部 分 程序 包 的 代码 都 是 公开 的 ， 
透明 是 防止 腐败 的 最 好 方式 。 此 外 ,由 于 尺 在 中 国 的 普及 越 来 越 广 泛 ， 
网 上 关于 R 的 互动 和 帮助 的 环境 也 已 经 形成 ,中 国学 生 和 实际 工作 者 
完全 可 以 赶 上 国际 统计 界 使 用 有 民 的 主流 (虽然 已 经 至 少 落 后 了 10 年 )。 

在 强大 的 免费 及 软件 不 断 壮 及 的 情况 下 ,对 于 缺乏 经 费 的 中 国教 
育 系 统 以 及 并 非 富 裕 的 学 校 师 生来 说 ,教学 中 继续 通过 昂贵 的 商业 软 
件 来 讲授 统计 变 得 越 来 越 缺 乏 吸 引力 。 用 商业 软件 教学 的 一 个 客观 效 
果 是 鼓励 非法 盗版 行为 。 由 于 避免 了 对 商业 软件 菜单 的 点 击 鼠 标的 繁 
珊 而 又 宛 长 的 细节 叙述 , 整 本 书 都 显得 简洁 明了 ,节省 了 大 量 的 篇 幅 
(第 四 版 比 前 一 版 减少 了 一 百 多 页 )。 课 文中 所 有 计算 过 程 都 附 有 可 以 
实现 的 民 语 名 ,在 每 章 最 后 仅仅 对 民 语 句 做 些 汇总 或 说 明 。 

虽然 民 软 件 是 编程 语言 ,但 由 于 其 简单 易 懂 ,任何 从 来 没有 使 用 过 
R 的 人 都 可 以 毫 不 费力 地 通过 复制 和 粘贴 书 上 的 代码 重新 实现 书 上 的 
所 有 例题 。 书 后 附录 中 的 R 代码 练 习 更 可 以 帮助 读者 尽快 地 掌握 民 
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许多 人 ,比如 各 层 管理 人 员 , 并 不 一 定 都 进行 第 一 线 的 实际 数据 计 
算 , 但 为 了 理解 手中 关于 本 单位 及 有 关 方 面 信息 的 意义 ,为 了 更 好 地 进 
行 明白 的 决策 ,他 们 必须 理解 各 种 统计 推断 结果 的 意义 。 对 这 些 人 ,不 
一 定 要 求 能 够 使 用 软件 ,更 不 需要 理解 数学 推导 ,但 他 们 必须 明白 各 种 
统计 概念 和 方法 以 及 输出 结果 的 意义 ,明白 那些 数据 分 析 人 员 在 做 什 
么 。 相 信和 本 书 对 他 们 肯定 会 有 所 神 益 。 

在 内 容 方面 ,本 版 专门 添加 了 有 广泛 应 用 前 景 的 机 器 学 习 的 回归 
和 分 类 方法 ,并 且 把 这 些 内 容 及 经 典 的 回归 和 判别 分 析 等 归 到 一 章 。 
此 外 ,把 多 元 分 析 的 除 判 别 分 析 之 外 的 其 他 内 容 合并 到 一 章 之 中 。 这 
一 和 版 还 取消 了 非 参 数 检 验 一 章 , 把 其 中 一 些 常用 的 非 参 数 检验 加 入 到 
假设 检验 的 一 章 中 。 

作为 教科 书 , 本 书 内 容 对 于 每 周 两 学 时 的 课程 似乎 太 多 。 我 觉得 ， 
什么 讲 或 者 什么 不 讲 应 该 根据 学 生 的 需要 由 老师 自己 安排 。 实 际 上 ， 
对 于 任何 课程 ,最 好 是 由 任课 教师 来 决定 讲 哪些 内 容 以 及 如 何 讲 。 因 
为 他 们 最 了 解 他 们 所 面 对 的 学 生 。 教 科 书 编者 的 思维 方式 不 见得 和 老 
师 的 一 致 ,而 老师 最 好 按照 自己 的 理解 来 讲述 。 一 个 好 的 教科 书 , 应 该 
给 教师 以 较 大 的 余地 和 和 自由。 

笔者 希望 读者 在 阅读 本 书 时 能 够 以 理解 统计 方法 的 含义 为 主 ,学 
会 处 理 数 据 , 提 高 学 习 和 应 用 能 力 。 在 任何 国家 及 任何 制度 下 都 能 够 
生存 和 发 展 的 知识 和 能 力 ,就 是 科学 ,是 人 们 在 生命 的 历程 中 应 该 获 
得 的 。 

希望 读者 继续 对 本 书 予以 宝贵 的 支持 和 批评 指正 。 


吴 喜 之 
2012 年 10 月 


第 一 版 前 


了 i 


什么 在 本 书 中 等 待 着 你 们 去 发 现 ,去 探讨 ,去 欣赏 呢 ? 当然 不 是 数 
学 公式 和 定理 定义 的 堆砌 ,也 不 是 和 村 爆 的 公文 报表 相关 的 政府 工作 
的 培训 。 这 是 一 门 充 满 了 哲学 韵味 的 认识 世界 的 学 问 。 

不 知 读者 们 是 否 意识 到 ,统计 已 经 渗入 到 人 们 的 社会 .生活 、 工 作 
等 各 个 领域 。 每 天 新 闻 媒 介 报 道 的 各 个 方面 都 离 不 开 各 种 统计 数据 和 
各 种 分 析 与 预测 。 人 们 可 能 对 于 这 些 统计 内 容 觉得 习以为常 ,也 可 能 
会 有 一 些 好 奇 或 神秘 感 。 由 于 国情 不 同 , 统 计 的 地 位 与 人 们 对 统计 的 
看 法 也 不 同 。 在 发 达 国 家 ,一 般 民 众 觉 得 统计 学 和 数学 类 似 , 是 一 门 高 
不 可 攀 但 极 易 找 到 满意 工作 的 学 问 。 在 中 国 , 又 有 一 些 人 认为 统计 就 
是 处 理 政府 报表 的 职业 。 但 自从 中 国 向 世界 开放 之 后 , 越 来 越 明 确 的 
一 点 是 ,没有 什么 学 科 或 领域 能 够 真正 离开 统计 。 

以 应 用 为 目标 学 习 统 计 , 究 竟 是 为 什么 ? 是 为 了 流利 地 背诵 一 大 
堆 定 义 、 概 念 和 抽象 的 名 词 和 术语 吗 ? 是 为 了 学 习 如 何 进行 推导 和 证 
明 一 些 复杂 的 定理 和 公式 吗 ? 这 些 问 题 不 仅 学 生 会 思考 ,更 重要 的 是 
统计 教师 要 思考 。 本 书 的 目的 是 希望 读者 在 学 习 之 后 ,能 够 知道 实际 
中 哪些 是 统计 问题 ,最 好 能 够 自己 解决 一 部 分 统计 间 题 ,即使 不 能 解决 
也 知道 能 够 在 哪里 查 到 答案 和 向 谁 请 教 。 知 识 固然 重要 ,更 重要 的 是 
通过 学 习 获 得 解决 和 处 理 问题 的 能 力 。 

学 习 并 不 总 是 一 个 令 人 生 早 或 至 少 成 为 某 种 负担 的 过 程 。 人 们 学 
会 走路 .说话 、 骑 车 .下 棋 、 打 球 等 大 都 是 在 一 种 乐趣 中 进行 的 。 为 什么 
涉及 日 常生 活 的 每 一 个 方面 的 统计 就 不 能 和 看 侦探 小 说 那么 引人入胜 
呢 ? 其 实 任何 一 门 科学 ,都 有 其 趣味 性 ,而 只 有 把 科学 研究 当成 游戏 的 
人 才 会 真正 成 为 大 师 。 这 门 课 并 不 想 使 读者 都 成 为 统计 学 家 ,而 仅仅 
想 让 读者 如 同学 会 使 用 电脑 .手机 、 学 会 辩论 ,上 网 或 讨价还价 那样 愉 
快 地 认识 或 理解 在 人 生 中 无 法 躲 开 的 统计 。 


本 书 由 浅 入 深 地 把 统计 最 基本 和 最 有 用 的 部 分 在 这 么 一 本 不 厚 的 
教科 书 中 完整 地 介绍 给 读者 ,而 且 让 读者 可 以 边 学 习 , 边 着 手 用 统计 软 
件 处 理 数据 。 篇 幅 大 、 语 言 罗 喧 的 教材 对 读者 是 个 负担 ,不 但 浪费 了 资 
源 , 也 抓 不 住 要 领 。 因 此 ,作者 力图 异 有 墨 如 金 , 既 节省 篇 幅 , 又 要 把 该 解 
释 的 全 部 说 清 。 和 希望 读者 慢 慢 咀嚼 ,不 必 图 快 。 

很 少 有 一 本 统计 教材 包括 像 本 书 那 么 多 的 统计 内 容 。 我 觉得 ,这 
些 内 容 本 来 并 不 深奥 ,只 是 其 狗 似 复杂 的 数学 工具 把 它 搞 成 阳春 白雪 ， 
再 加 上 强调 数学 推导 的 教学 方式 ,使 得 统计 显得 高 不 可 攀 。 本 教材 要 
还 这 些 统计 应 用 以 其 本 来 面目 。 使 得 统计 变 成 人 人 都 能 够 基本 上 理解 
和 掌握 的 有 用 工具 。 多 数 使 用 计算 机 的 人 都 不 是 计算 机 专业 的 ,多 数 
开 汽 车 的 都 不 会 修 汽 车 ,但 这 对 他 们 毫 无 妨碍 。 难 道 不 会 推导 或 背诵 
与 统计 有 关 的 数学 公式 就 不 能 应 用 统计 这 个 工具 了 吗 ? 

本 书 每 一 章 的 主要 部 分 是 用 日 第 语言 来 引进 和 解释 一 些 概 念 ,如 
果 可 能 ,就 通过 例子 来 说 明 。 如 果 不 涉 及 应 用 ,这 部 分 就 足够 了 。 在 本 
书 例题 的 分 析 中 ,同时 提供 简洁 明了 的 软件 代码 ,可 以 使 读者 一 边 看 
书 ,一边 自己 计算 ,这 会 给 多 数 想 要 自己 动手 分 析 数 据 的 读者 以 方便 。 
每 章 后 面 的 小 结 中 还 展示 了 与 概念 及 计算 有 关 的 一 些 数 学 公式 以 及 软 
件 的 说 明 , 使 那些 精力 充沛 的 读者 能 更 深刻 地 理解 内 容 。 这 种 安排 使 
得 本 教材 能 够 适用 于 各 种 不 同 水 平 . 不 同 要 求 的 读者 群体 。 

本 教材 不 仅 可 供 没 有 学 过 概率 论 和 数理 统计 的 非 统计 专业 的 本 科 
生 和 研究 生 使 用 ,也 可 以 供 统 计 专 业 的 本 科 生 作为 理解 统计 本 来 含义 
的 教材 使 用 (以 代替 不 能 满足 需要 的 “描述 统计 学 "等 类 课程 ), 它 还 可 
以 为 各 领域 的 广大 实际 工作 者 作为 应 用 各 种 统计 方法 的 参考 书 。 为 了 
读者 可 以 使 用 各 种 软件 来 进行 分 析 , 本 书 所 涉及 的 所 有 电子 版 数据 都 
为 文本 格式 。 

软件 方面 ,本 书 则 采用 免费 的 自由 软件 RE。 经 验 表明 ,在 学 习 统计 
内 容 的 时 候 学 习 软 件 比 上 专门 的 软件 操作 课 更 有 效 。 及 软件 既 采 用 了 最 
简单 的 编程 语言 ,又 拥有 最 丰富 的 统计 资源 。 一 个 大 学 本 科 生 通常 可 以 


QD 第 一 版 主要 使 用 SPSS 和 部 分 地 应 用 Excel, 第 二 版 之 后 加 了 SAS 和 R 的 应 用 ,第 三 版 则 以 R 软件 为 
主 ,第 四 版 则 全 部 用 R 软件 ， 


在 一 天 内 学 会 R 的 基本 计算 ,在 一 周 内 学 会 统计 基本 课程 的 计算 。 

在 前 计算 机 时 代 , 几 乎 所 有 的 统计 教科 书 都 给 出 了 各 种 与 分 布 有 
关 的 表格 。 但 随 着 计算 机 的 普及 ,所 有 统计 软件 (无 论 是 商业 的 还 是 免 
费 的 ) 都 给 出 了 和 各 种 分 布 有 关 的 各 种 函数 ,把 人 们 从 繁琐 而 又 不 精确 
的 查 表 中 解放 出 来 。 目 前 很 多 国外 的 统计 教科 书 都 不 再 提供 既 占 用 篇 
幅 又 比较 粗糙 的 分 布 表 。 本 书 不 准备 提供 任何 和 分 布 有 关 的 表格 。 本 
书 第 四 章 会 介绍 如 何 使 用 软件 来 进行 与 概率 分 布 有 关 的 计算 。 

这 个 教材 的 全 部 内 容 曾 作为 非 统计 专 业 硕 士 和 博士 的 课程 分 别 在 
北京 大 学 光华 管理 学 院 及 中 国人 民 大 学 讲授 过 ,受到 普遍 欢迎 。 实 践 
证 明 ,这 本 书 的 大 部 分 内 容 完全 能 够 轻 轻松 松 地 在 一 个 学 期 (每 周三 个 
学 时 ) 中 全 部 讲 完 。 一 些 热 心 而 又 好 奇 的 非 统 计 青 景 的 人 士 也 曾 谈 过 
本 教材 的 全 部 内 容 , 没 有 任何 理解 上 的 问题 。 当 然 , 根 据 不 同 的 教学 对 
象 和 需要 ,有 些 章 节 可 以 完全 不 讲 或 少 讲 。 

本 书 前 面 的 章节 ,是 对 统计 基本 概念 的 介绍 。 而 后 面 的 部 分 则 无 
更 有 针对 性 的 一 些 统计 模型 和 方法 。 一 般 传统 统计 学 的 课程 包括 前 六 
章 , 或 最 多 前 七 章 的 内 容 ,而 第 八 章 属于 多 元 统计 分 析 的 课程 内 容 ,第 
九 章 一 般 属 于 时 间 序 列 课程 包含 的 内 容 ,第 十 章 简单 介绍 了 生存 分 析 ， 
第 十 一 章 对 指数 进行 了 必要 的 介绍 。 目 前 大 多 数 流行 的 统计 应 用 都 已 
包含 在 本 教材 内 。 

本 书 的 编写 是 在 国家 统计 局 教育 中 心 的 建议 和 鼓励 下 产生 ,并 得 
到 其 大 力 支 持 。 本 书 还 受到 北京 大 学 、 中 国人 民 大 学 以 及 各 兄弟 院 校 
老师 和 学 生 的 鼓励 和 帮助 。 中 国 统计 出 版 社 一 直 关 心 着 本 书 的 写作 和 
出 版 。 特 别 要 指出 的 是 敬爱 的 汪 仁 官 老师 又 一 次 为 我 所 写 的 统计 教材 
进行 了 非常 认真 的 审核, 使 我 重新 感受 到 做 学 生 的 幸福 ,中 国 统计 界 的 
老 前 辈 芋 诗 松 老师 也 热心 地 对 本 书 提出 了 许多 宝贵 而 又 中 肯 的 建议 。 
他 们 的 审 校 和 建议 使 本 书 避免 了 许多 错误 和 不 妥 之 处 。 没 有 这 些 文 持 
和 帮助 ,本 书 是 不 可 能 面世 的 。 谨 在 此 对 所 有 各 方面 表示 衷心 的 感谢 。 
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2003 年 6 月 
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第 一 章 ”一 些 基 本 概念 


1.1 统计 是 什么 ? 


11. 


你 想 过 下 面 的 问题 吗 ? 


. 当 你 买 了 一 台电 脑 时 , 被 告知 三 年 内 可 以 免费 保修 . 那么 , 厂家 赁 什么 这 样 说 ? 


说 多 了 , 厂家 会 损失 , 说 少 了 , 会 失去 部 争 力 , 也 是 损失 . 到 底 这 个 保修 期 是 怎 
样 决定 的 呢 ? 


. 在 同一 年 级 中 , 同样 统计 学 的 课程 可 能 由 一 些 不 同 教师 讲授 . 教师 讲课 方式 当 


然 不 一 样 , 考试 题目 也 不 一 定 相 同 . 那么 如 何 比 较 不 同班 级 的 统计 学 成 绩 呢 ? 


. 大 学 或 企业 的 排名 是 一 个 非常 敏感 的 问题 . 不 同 的 机 构 得 出 不 同 的 结果 , 各 目 


都 说 自己 是 客观 、 公 正和 有 道理 的 . 到 底 如 何 理 解 这 些 不 同 的 结果 呢 ? 


. 任何 公司 和 个 人 都 有 一 个 信用 问题 . 如 果 他 们 在 试图 得 到 贷款 时 并 没有 不 还 贷 


的 不 良 记录 , 如 何 根据 其 背景 资料 来 判断 其 信用 等 级 呢 ? 


. 我 国 东 部 和 西部 的 概念 是 一 个 比较 笼统 的 概念 . 如 何 能 够 根据 茶 些 标准 或 需 


要 , 选择 一 些 指 标 来 把 各 省 , 或 各 市 县 甚至 村 进行 分 类 呢 ? 


. 疾病 传播 时 , 如 何 能 够 通过 被 感染 者 入 院 前 后 的 各 种 经 历 得 到 一 个 疾病 传染 方 


式 的 模型 呢 ? 


. 如 何 通过 问卷 调查 来 得 到 性 别 、 年 龄 、 职 业 、 收 入 等 各 种 因素 与 公众 对 茶 项 


事物 (比如 商品 或 政策 ) 的 态度 的 关系 呢 ? 


. 一 个 从 来 没有 研究 过 红楼 梦 的 统计 学 家 如 何 根据 比较 写作 习惯 得 出 红楼 梦 从 


哪 一 段 开始 就 不 是 萌 雪 阁 的 手笔 了 了 呢 ? 


. 如 何 才能 够 客观 地 得 到 某 个 电视 节目 的 收视 率 , 以 确定 插播 的 广告 价格 是 合 合 
理 呢 ? 

. 如 何 根据 税务 部 门 过 去 的 税收 记录 来 预测 下 一 年 的 税收 收入 , 供 政府 部 门 制定 
预算 时 参考 ? 


如 何 根据 某 地 区 的 寿命 记录 来 确定 人 寿 保 险 的 婚 有 竞争 力 , 又 有 利 可 图 的 定 
价 ? 


其 实 , 这 些 都 是 统计 应 用 的 例子 . 这 样 的 例子 太 多 了 , 无 法 一 一 列举 . 因为 统 


计 学 可 以 应 用 于 几乎 所 有 的 领域 , 包括 精算 、 农 业 、 动 物 学 、 人 类 学 、 沽 古 学 、 
审计 学 、 蝇 体 学 、 人 口 统计 学 、 牙 医学 、 生 态 学 、 经 济 计量 学 、 教 育 学 、 选 举 预 
测 和 策划 、 工 程 、 流 行 病 学 、 金 融 、 水 产 渔业 研究 、 遗 传 学 、 地 理学 、 地 质 学 、 
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历史 研究 、 人 类 遗传 学 、 水 文学 、 工 业 、 法 律 、 语 言 学 、 文 学 、 劳 动力 计划 、 管 
理科 学 、 市 场 营销 学 、 医 学 诊断 、 气 象 学 、 军 事 科 学 、 核 材料 安全 管理 、 眼 科 
学 、 制 药学 、 物 理学 、 政 治学 、 心 理学 、 心 理 物理 学 、 质 量 控制 、 宗 教研 究 、 社 
会 学 、 调 查 抽样 、 分 类 学 和 气象 改善 、 博 彩 、 遥 感 、 卫 星 数据 处 理 、 网 络 管理 、 
网 络 数据 分 析 等 . 当然 , 大 家 用 不 着 也 不 可 能 理解 所 有 的 统计 应 用 . 只 要 能 够 解决 
自己 身边 的 统计 问题 就 足够 了 . z 

在 解决 上 面 所 提 到 的 若干 个 应 用 问题 时 所 需 使 用 的 大 多 数 统计 分 析 方 法 将 会 
在 本 书后 面 章节 中 陆续 介绍 . 当然 书 中 的 例子 并 不 一 定 就 刚好 是 上 面 问题 中 的 具 
体例 子 , 但 至 少 所 使 用 的 分 析 方 法 是 类 似 的 . 

上 面 的 例子 并 没有 明确 说 出 什么 是 统计 . 其 实 很 简单 . 上面 的 所 有 例子 都 要 
通过 各 种 直接 或 间接 的 手段 来 收集 数据 (data), 都 要 利用 一 些 方法 来 整理 和 分 析 
数据 , 最 后 通过 分 析 得 到 结论 . 统计 是 一 门 科学 , 它 以 现实 世界 待 解决 的 问题 为 目 
标 , 这 一 点 , 和 物理 学 等 其 他 科学 一 样 . 科学 研究 的 方法 是 : 观测 世界 或 进行 试验 ， 
得 到 数据 , 提出 可 以 解释 这 些 观测 的 假说 或 理论 , 试图 尽 可 能 地 接近 现实 世界 的 
规律 , 当 出 现 理论 或 假说 无 法 解释 的 现象 (数据 ) 时 , 就 有 可 能 需要 对 原 有 理论 进行 
修正 或 者 代 之 以 新 理论 . 统计 学 的 假说 或 理论 通常 称 为 模型 ， 按照 不 列 颠 百科 全 
书 关于 统计 的 定义 , 统计 学 (statistics) 是 < 收集、 分析、 展示 和 解释 数据 的 科 
学 . ”1 与 物理 学 的 假说 类 似 , 统计 学 的 模型 仅仅 是 对 现实 的 近似 , 没有 任何 模型 
是 “正确 "的, 也 无 法 证 明 任 何 模型 是 正确 的 . 只 能 够 说 , 在 某 些 可 能 有 争议 的 准则 
之 下 , 某 些 模型 比 另外 一 些 要 更 合适 一 些 ， 在 数学 逻辑 中 存在 的 确定 性 在 统计 中 
完全 不 成 立 . 针对 于 不 同学 科 问 题 而 发 展 的 统计 学 中 的 数学 完全 不 成 为 一 个 完整 
封闭 的 体系 , 也 没有 必要 成 为 一 个 数学 体系 . 能 否 解决 实际 问题 是 评价 统计 方法 的 
最 终 标 准 . 

比如 要 得 到 某 电视 节目 的 收视 率 , 可 能 首先 要 在 该 节目 播 出 时 , 利用 电话 或 刚 
的 手段 对 看 电视 的 人 进行 采访 , 同时 间 他 们 在 观看 什么 节目 . 在 得 到 了 被 采访 的 
看 电视 的 总 人 数 , 和 其 中 观看 该 节目 的 人 数 之 后 , 就 有 可 能 得 到 这 部 分 观众 中 , 观 
看 该 节目 的 比例 , 即 粗糙 的 收视 率 . 之 后 还 要 经 过 统计 分 析 , 评估 这 个 收视 率 的 可 
信和 度 和 代表 性 等 等 . 显然 , 这 是 一 个 收集 数据 , 然后 通过 分 析 数 据 得 到 结论 的 简单 
例子 
思考 一 下 : | 


1. 你 周围 经 常会 有 辩论 , 是 不 是 这 些 辩 论 都 是 以 科学 的 方法 来 进行 的 
2. 对 世界 的 解释 , 除了 科学 还 有 信仰, 举例 说 明科 学 和 信 爷 之 间 的 区 别 . 
3. 举 出 一 个 你 认为 是 统计 应 用 的 例子 . 




















lstatistics. (2008). Encyclopaedia Britannica. Encyclopadia Britannica 2007 Ultimate Reference 
Suite. Chicago: Encyclopaedia Britannica. 


1.2 ”现实 中 的 随机 性 和 规律 性 , 概率 和 机 会 


从 中 学 起 , 大 家 就 知道 自然 科学 的 许多 定律 , 例如 物理 中 的 牛顿 三 定律 , 物质 
不 灭 定 律 以 及 化 学 中 的 各 种 定律 等 等 . 但 是 在 许多 领域 , 很 难 用 如 此 确定 的 公子 
或 论述 来 描述 一 些 现象 . 比如 , 人 的 寿命 是 很 难 预先 确定 的 .一 个 吸烟 、 喝 酒 、 
不 锻炼 、 而 且 经 常 吃 蔓 的 人 可 能 比 一 个 很 少 得 病 , 生活 习惯 良好 的 人 活 得 长 . 因 
此 , 可 以 说 , 活 得 长 短 有 一 定 的 随机 性 (randomness). 这 种 随机 性 可 能 和 人 的 经 
历 、 基 因 、 习 惯 等 无 数 不 易 说 清 的 因素 都 有 关系 . 但 是 从 总 体 来 说 , 我 国 公 民 的 平 
均 预 期 寿命 却 是 非常 稳定 的 , 而 且 随 着 生活 水 平 的 提高 在 逐步 增长 , 比如 1996 年 
的 平均 预期 寿命 为 70.80 岁 , 而 2000 年 为 71.40 岁 . 这 就 是 规律 性 . 一 个 人 可 能 活 过 
这 个 预期 年 龄 , 也 可 能 活 不 到 这 个 年 龄 , 这 是 随机 的 . 但 是 总 体 来 说 , 预期 寿命 的 
稳定 性 , 却说 明了 随机 之 中 有 规律 性 . 这 种 规律 就 是 统计 规律 . 

你 可 能 经 常 听 到 概率 (probability) 这 个 名 词 . 有 一 段 时 间 在 天 气 预 报 中 第 
提 到 的 降水 概率 . 大 家 都 明白 , 如 果 降 水 概率 是 百 分 之 九 十 , 那 就 很 可 能 下 雨 , 但 
如 果 是 百 分 之 十 或 者 更 少 , 就 不 大 可 能 下 雨 . 因此 , 从 某 种 意义 说 来 , 概率 描述 了 
某 件 事情 发 生 的 机 会 . 显然 , 这 种 概率 不 可 能 超过 百分之百 , 也 不 可 能 少 于 百 分 之 
零 . 换言之 , 概率 是 在 0 和 1 之 间 ( 也 可 能 是 0 或 1) 的 一 个 数 , 说 明 某 事件 发 生 的 机 会 
有 多 大 . 

有 些 概率 是 无 法 精确 推断 的 .比如 你 对 别人 说 你 下 一 个 周末 去 公园 的 概率 是 
百 分 之 八 十 . 但 你 无 法 精确 说 出 为 什么 是 百 分 之 八 十 而 不 是 百 分 之 八 十 四 或 百 分 
之 七 十 八 . 其 实 你 想 说 的 是 你 很 可 能 去 , 但 又 没有 完全 肯定 . 实际 上 , 到 了 周末 ， 
你 或 者 去 , 或 者 不 去 , 不 可 能 有 分 身 术 把 百 分 之 八 十 的 你 放 到 公园 , 而 其 余 的 放 在 
别处 . 有 些 概率 是 可 以 大 体 知道 的 .比如 撕 骨 子 . 只 要 没有 人 在 角子 上 做 手脚 , 你 
得 到 6 点 的 概率 应 该 是 六 分 之 一 . 得 到 其 他 点 的 概率 也 是 一 样 . 这 反映 了 掷 货 子 的 
规律 性 . 但 掷 出 休 子 之 后 所 得 到 的 结果 还 只 可 能 是 六 个 数目 之 一 . 这 体现 了 随机 
性 . 如 果 你 掷 1000 次 盘子 , 那么 , 大 约 有 六 分 之 一 的 可 能 会 得 到 6 点 , 这 也 说 明 随 机 
结果 也 具有 规律 , 而 且 有 可 能 通过 试验 等 方法 来 推测 其 规律 . 
思考 一 下 : 


1. 有 没有 大 于 1 或 小 于 0 的 概率 ! 


2. 举 出 若干 可 以 计算 的 概率 和 无 法 计算 的 概率 . 
3. 有 没有 事物 和 和 概率 无 关 ? 





1.3 变量 和 数据 


做 任何 事情 都 要 有 对 象 . 比如 一 个 班 上 注册 的 学 生 有 200 人 , 这 是 一 个 固定 
的 数目 , 称 为 常数 (constant) 或 者 常量 .但 是 , 如 果 猜 测 今天 这 个 班 有 多 少 人 
会 来 上 课 , 那 就 没准 了 .这 有 随机 性 .可 能 有 请 病假 或 事假 的 , 也 可 能 有 逃课 
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的 . 这样, 就 要 来 上 课 的 人 数 是 个 变量 (variable). 另外 对 于 某 项 政策 同意 与 否 
的 回答 , 也 有 “同意 ”"、“ 不 同意 ”或 者 “不 知道 ”三 种 可 能 值 , 这 也 是 变量 , 只 不 过 
不 是 数量 而 已 当 变 量 按照 随机 规律 所 取 的 值 是 数量 时 该 变量 称 为 定量 变量 或 
数量 变量 (quantitative variable), 因为 是 随机 的 , 也 称 为 随机 变量 (random 
variable)， 像 性 别 或 观点 之 类 的 取 非 数量 值 的 变量 就 称 为 定性 变量 、 属 性 变量 
或 分 类 变量 (qualitative variable，categorical variable). 这 些 定性 变量 也 
可 以 由 定量 变量 来 描述 , 比如 男性 和 女性 的 数目 、 同 意 某 政策 人 数 的 比例 等 等 
定性 变量 只 有 用 数量 来 描述 时 , 才能 建立 数学 模型 , 才能 使 用 计算 机 来 分 析 . 

有 了 变量 的 概念 , 什么 是 数据 昵 ? 拿 抑 山子 来 说 , 撕 骨 子 会 得 到 什么 值 , 是 个 
随机 变量 , 而 每 次 取得 1 至 6 点 中 任意 某 点 数 的 概率 在 理论 上 都 是 六 分 之 一 (如 果 凡 
子 没 有 作假 ). 这 依赖 于 在 掷 角 子 背后 的 理论 或 假定 , 而 在 实际 掷 骨 子 过 程 中 , 如 
果 撕 100 次 , 会 得 到 100 个 由 1 至 6 点 组 成 的 数字 串 ， 再 扼 100 次 , 又 得 到 一 个 数字 串 ， 
和 前 一 次 的 结果 多 半 不 一 样 . 这 些 试验 结果 就 是 数据 . 所 以 说 数据 是 关于 变量 的 
观测 值 . 

通过 数据 可 以 验证 有 关 的 理论 或 假定 . 比如 通过 很 多 次 掷 人 般 子 验证 得 到 每 个 
凡 的 概率 是 不 是 1/6. 对 于 顾客 是 和 否 喜 欢 某 种 饮品 的 调查 也 类 似 , 但 这 里 不 像 手 
仍 子 那样 事先 可 以 大 致 猜测 顾客 喜欢 与 否 的 概率 . 在 随机 问 了 1000 人 之 后 , 可 能 
有 364 人 说 喜欢 , 而 480 人 说 不 喜欢 , 其 余 的 人 可 能 不 回答 , 或 说 不 知道 , 或 从 来 没 
有 了 喝 过 这 种 饮料 . 当然 , 它 仅仅 反映 了 1000 个 被 问 到 的 人 的 观点 , 但 这 对 于 估计 
整个 消费 群体 的 观点 还 是 有 用 的 .从 这 些 数据 可 以 估计 出 喜欢 这 种 饮料 的 大 约 
占 364/1000=36.4 吕 ,后 面 还 要 介绍 得 到 数据 的 一 些 途 径 和 方法 . 
思考 一 下 : 


1. 如 果 你 抽签 得 到 奖品 的 概率 为 十 分 之 一 , 但 抽 完 签 之 后 , 你 或 者 得 到 奖品 , 或 
者 得 不 到 , 这 里 就 不 存在 概率 了 . 这 实际 上 是 一 个 随机 实验 的 结果 , 或 者 是 一 
个 随机 变量 (得 到 奖品 与 否 ) 的 实现 值 . 举例 说 明 随 机 变量 及 其 实现 值 之 间 的 区 
别 . 


2. 数据 是 变量 的 实现 值 . 在 概率 论 的 文献 中 , 习惯 上 把 随机 变量 用 大 写字 母 ( 比 
如 X、Y) 表 示 , 而 把 它们 的 实现 值 或 数据 用 小 写字 母 (比如 x、y) 表 示 . 


1.4 变量 之 间 的 关系 


现实 世界 的 问题 都 是 相互 联系 的 . 不 讨论 变量 之 间 的 关系 , 就 无 从 谈 起 任何 
有 深度 的 应 用 , 而 没有 应 用 , 统计 的 基本 概念 就 仅仅 是 摆设 而 已 . 

人 们 每 时 每 刻 都 在 关心 事物 之 间 的 关系 . 比如 , 职业 种 类 和 收入 之 间 的 关系 、 
政府 投入 和 经 济 增长 之 间 的 关系 、 广 告 投入 和 经 济 效益 之 间 的 关系 、 治 疗 手 段 和 
治愈 率 之 间 的 关系 等 等 ,这些 都 是 二 元 的 关系 . 还 有 更 加 复杂 的 诸多 变量 之 间 的 
相互 关系 , 比如 企业 的 固定 资产 、 流 动 资 产 、 预 算 分 配 、 管 理 模式 、 生 产 率 、 债 


务 和 利润 等 诸 因素 的 关系 是 不 能 用 简单 的 一 些 二 元 关系 所 描述 的 . 下 面 用 例子 探 
索性 地 说 明 变 量 之 间 可 能 存在 的 关系 . 这 些 描述 性 的 例子 所 涉及 的 统计 方法 都 会 
在 以 后 的 章节 中 陆续 介绍 . 


1.4.1 定量 变量 间 的 关系 
例 1.1 广告 投入 和 和 销售 之 间 的 关系 . 数据 : ads.sav, ads.txt) 显 示 了 茶 企业 的 广 
告 投 入 和 销售 额 之 间 的 关系 (万 元 ). 
某 企业 广告 投入 (ads) 和 销售 额 (sales) 数 据 ( 单 位 : 万 元 ) 
3511.00 3.20 3.20 5.50 5.90 7.10 7.30 9.20 10.80 12.10 
;19.40 31.80 33.20 52.40 53.50 56.00 56.90 59.20 60.10 63.50 
到 底 广 告 投 入 和 销售 额 之 间 有 没有 关系 ? 还 是 用 二 维 点 图 ( 称 为 散 点 图 , 将 在 

第 三 章 介绍 ) 来 “感觉 "一 下 这 个 数据 . 图 1.1 的 横 坐 标 (ads) 代 表 广 告 投 入 , 而 纵 坐 
标 (sales) 代 表 销 售 收入 ， 上 面 表格 中 的 数字 就 由 图 中 的 点 表示 了 . 从 该 图 可 以 看 
出 , 在 广告 投入 少 的 时 候 , 广告 投入 和 销售 额 之 间 有 很 强 的 相关 , 广告 投入 增加 ， 
销售 额 也 增加 , 但 当 广 告 投 入 达到 一 定 水 平 之 后 , 销售 额 的 增加 就 不 那么 快 了 . 






1.1 广告 投入 (ads) 和 销售 额 (sales) 之 间 的 关系 . 


一 般 来 说 , 人 们 希望 能 够 从 数据 回答 几 个 问题 , 下面 就 此 例 进行 初步 探讨 : 


1. 这 两 个 变量 是 否 有 关系 ? 看 来 , 它们 有 关系 , 这 从 散 点 图 就 很 容易 看 出 . 看 上 去 
销售 额 是 随 着 广告 投入 的 递增 而 递增 . 


2. 如 果 有 关系 , 它们 的 关系 是 否 显 菏 ? 这 也 可 以 从 散 点 图 得 到 . 当 广 告 投 入 在 6 万 
元 以 下 , 销售 额 增 长 很 快 , 但 大 于 这 个 投入 时 , 销售 额 增长 就 不 明显 了 . 因此 ， 
这 两 个 变量 的 关系 是 由 强 变 弱 . 
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3. 这 些 关 系 是 什么 关系 ? 是 否 可 以 用 数学 模型 来 描述 ?本 例 看 上 去 是 可 以 拟 合 一 
个 回归 模型 (后 面 会 介绍 ), 但 似乎 不 是 线性 的 (用 一 条 直线 可 以 描述 的 ).、 具体 
细节 需要 进一步 的 分 析 . 


4. 这 个 关系 是 否 带 有 普遍 性 ”也 就 是 说 , 仅仅 对 这 一 个 企业 , 在 这 一 段 时 间 有 这 
样 的 关系 , 还 是 对 于 其 他 企业 在 其 他 时 间 也 有 类 似 的 规律 ? 这 里 的 数据 还 远 远 
不 在 以 回答 这 个 问题 . 可 能 需要 考虑 更 多 的 变量 和 收集 更 多 的 数据 . 一 般 来 说 
人 们 希望 能 够 从 一 些 特殊 的 样本 , 得 到 普遍 的 结论 , 以 利于 预测 . 


5. 这 个 关系 是 不 是 因果 关系 ? 这 个 问题 可 能 永远 不 能 准确 地 回答 . 实际 上 , 销售 
额 的 增加 很 可 能 有 多 方面 因素 , 比如 产品 的 改善 , 销售 渠道 的 畅通 , 员工 的 管 
理 , 成 本 的 降低 , 整个 经 济 的 改善 , 购买 力 的 提高 等 等 , 说 不 定 广告 根本 不 起 多 
大 的 作用 , 这 种 关系 仅仅 是 巧合 而 已 .严格 来 说 , 只 有 排除 了 所 有 可 能 的 影响 
因素 之 后 , 才能 讨论 余下 变量 之 间 的 因果 关系 . 而 这 种 排除 在 实际 生活 中 是 几 
乎 不 可 能 的 . 虽然 如 此 , 在 可 控制 的 试验 中 , 特别 是 科学 试验 中 , 还 是 有 可 能 找 
到 必要 的 因果 关系 的 . 但 是 , 一般 来 说 , 变量 之 间 有 关系 这 个 事实 并 不 意味 着 
一 定 存在 明确 的 因果 关系 . 比如 肺癌 和 吸烟 肯定 是 相关 的 , 但 是 , 有 人 认为 由 于 
某 种 不 明 原因 或 其 他 一 些 变量 造成 了 这 二 者 同时 出 现 , 至 少 , 吸烟 并 不 是 得 肺 
癌 的 充分 条 件 . 再 例如 , 任何 和 时 间 有 关 的 变量 , 都 有 可 能 有 某 种 相关 , 比如 一 
个 婴儿 的 体重 增长 , 和 同时 期 的 国民 经 济 的 增长 就 很 可 能 相关 , 但 没有 人 会 认 
真 建立 婴儿 的 增长 和 经 济 增长 的 模型 (当然 不 妨 试 试 ), 然而 , 只 要 有 关系 , 即使 
不 是 因果 关系 也 不 妨碍 人 们 利用 这 种 关系 来 进行 推断 ， 也 有 人 认为 , 较 早 发 生 
的 事件 为 原因 , 而 后 发 生 的 为 结果 , 但 公鸡 打 鸣 在 先 , 太阳 升 起 在 后 、 地 震 先兆 
在 前 , 地 震 在 后 , 这 都 不 能 说 明 发 生 的 时 间 先 后 能 够 成 为 判断 因果 关系 的 依据 


上 上面 列 出 的 这 些 问题 并 不 是 一 成 不 变 的 , 也 不 是 每 个 问题 都 需要 回答 或 者 能 
够 得 到 答案 的 . 一 切 根据 实际 需要 和 手中 掌握 的 数据 而 定 . 简单 的 办 法 (诸如 上 面 
的 散 操 图) 往往 不 一 定 能 够 给 出 满意 的 答案 , 这 就 需要 更 多 的 工具 和 手段 来 进行 数 
值 分 析 , 以 得 到 更 加 严格 和 精确 的 解答 . 

这 里 可 能 有 必要 说 明 , 日 常用 语 “ 关 系 ” 一 词 是 没有 严格 统计 定义 的 , 统计 术 
语 “ 相 关 ”( 当 然 也 是 日 常用 语 ) 试 图 用 统计 语言 来 描述 一 些 关 系 . 但 目前 的 统计 “ 相 
关 " 仅 仅 摘 述 了 日 常 所 说 的 “关系 ”的 很 小 的 一 部 分 . 这 就 好 像 宇宙 是 无 穷 的 , 而 人 
类 的 科学 理论 或 假说 只 能 覆盖 很 小 的 部 分 一 样 . 正如 上 面 所 提 到 的 , 有 些 关 系 是 
直接 的 因果 关系 , 比如 增加 热量 可 以 加 速 金属 的 熔化 、 加 催化 剂 可 以 加 速 某 些 化 
党 反应. 有 些 关 系 则 看 不 出 哪个 是 因 , 哪个 是 果 , 或 者 都 是 某 个 共同 原因 的 结果 ， 
比如 , 高 血压 和 动脉 硬化 是 相关 的 , 但 它们 很 可 能 都 是 整个 机 体 的 某 种 状态 的 表 
现 , 是 基因 、 环 境 等 许多 因素 的 结果 . 中 医 和 西医 对 疾病 处 理 的 不 同 就 反映 了 他 
们 对 因 采 的 不 同 看 法 . 再 例如 , 一 个 母亲 的 婴儿 生长 和 另 一 个 母亲 的 婴儿 生长 显 
然 是 有 关系 的 , 但 这 不 是 直接 的 因果 关系 , 这 是 人 类 的 共同 基因 决定 的 . 虽然 没有 
直接 关系 , 但 一 个 母亲 很 容易 看 出 其 他 婴儿 的 年 龄 , 这 也 是 一 种 基于 自己 婴儿 的 
模型 对 其 他 婴儿 进行 的 一 种 推断 . 另外 一 些 关 系 看 上 去 可 能 没有 一 个 共同 的 原因 ， 
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但 可 能 有 类 似 的 规律 ,比如 随 着 时 间 进 程 而 出 现 的 植物 和 动物 的 生长 、 经 济 的 增 
长 、 人 口 的 增长 等 等 . 当然 , 即使 不 用 人 口 增长 来 预测 经 济 增长 , 人们 也 很 难 绝对 
地 说 这 些 事物 真正 没有 共同 的 影响 因素 , 比如 , 环境 的 破坏 会 把 上 述 生长 或 增长 全 
部 破坏 . 当然 , 必定 存在 一 些 纯粹 的 巧合 , 但 这 些 偶然 相关 是 不 会 形成 规律 的 , 如 
朵 有 了 规律 , 那 就 不 是 巧合 了 . 

思考 一 下 : 


1. 少数 数据 所 展示 的 关系 很 可 能 是 偶然 的 . 必须 区 分 偶然 事件 和 有 规律 事件 之 
间 的 区 别 , 请 举例 说 明 你 对 这 个 问题 的 理解 . 、 


. 是 不 古 两 个 事件 频繁 地 、 固 定 地 先后 发 生 的 现象 可 以 证 明 : 先 发 生 的 事件 为 
后 发 生 事件 的 原因 ? 举例 说 明 . 





1.4.2 ”定性 变量 间 的 关系 


例 1.2 (数据 : change.txt) 这 是 对 某 地 区 一 个 行业 员工 的 调查 数据 中 三 个 问题 


所 组 成 的 列 联 表 . 这 里 的 三 个 问题 是 :“ 你 的 年 龄 ” (三 个 范围 选 一 项 : 在 数据 中 代 
码 ( 哑 元 )1 代 表 小 于 30 岁 ，2 代 表 30-40 岁 , 3 代表 40 岁 以 上 ),“ 你 的 教育 程度 ” (三 个 
范围 选 一 项 : 在 数据 中 代码 1 代表 “本 科 及 以 上 ”, 2 代表 “专科 ”， 3 代表 “专科 以 下 ”)， 
“你 是 否 想 跳槽 (三 个 范围 选 一 项 : 在 数据 中 代码 1 代表 “ 想 跳 模 *", 2 代表 “不 想 跳 
模 ”, 3 代表 “不 知道 ”"). 下 表 是 涉及 这 三 个 问题 的 列 联 表 . 注意 , 实际 计算 机 软件 从 
文件 中 所 读 入 的 数据 形式 和 此 表 不 大 相同 , 这 个 表 是 计算 机 转换 出 来 的 . 一 般 原 
始 数据 的 形式 为 常用 的 方 阵 形式 , 如 本 数据 在 change.txt 中 的 形式 . 


员工 调查 数据 


是 否 想 跳 模 (Change) 想 跳 模 (1 ) 不 想 跳 权 (2) 
(En) EE 


<30 岁 (1) 28 110 70|4 12 19110 59 64 
“30-40(2) 31 138 67|11 27 18|20 99 89 
龄 >40(3) 2 14 23|1 4 11|5 18 36 
注 : 教育 的 旺 元 中 , 1 代表 至 少 本 科 , 2 代表 专科 , 3 代表 专科 以 下 . 


这 种 数据 每 个 变量 都 有 几 种 取 值 ， 比 如 年 龄 有 三 个 可 能 取 的 值 (30 岁 以 下 ， 
30-40 岁 和 40 岁 以 上 ), 称 为 三 个 水 平 (level)， 类 似 地 , 教育 有 三 个 水 平 , 是 否 想 
跳槽 有 三 个 水 平 ,这 个 表 中 间 的 数目 是 被 调查 人 相应 于 变量 各 种 水 平 组 合 ( 共 
有 3 x 3 x 3 = 27 种 组 合 ) 出 现 的 频数 . 比如 , 小 于 30 岁 本 科 及 以 上 想 跳 槽 的 为 28 人 . 
大 于 40 岁 专科 以 下 想 跳 槽 的 为 23 人 等 等 从 这 个 表 中 , 还 可 以 算出 一些 部 分 和 . 比 
如 想 跳 模 的 有 483 人 , 总 人 数 999 人 , 本 科 及 以 上 教育 程度 的 人 有 112 人 等 等 . 这 个 
表 不 如 前 面 例 1.1 的 散 点 图 那么 直观 . 下 表 为 仅仅 保留 教育 程度 和 是 否 想 跳 槽 这 两 
个 变量 的 列 联 表 : 






















8 统计 学 :从 数据 到 结论 


仅 有 两 个 变量 的 员工 调查 数据 列 联 表 
是否 息 姨 禄 | 王 模 ”不 距 档 、 不 知道 








大 学 61 16 35 
大 专 262 43 176 
中 小 160 48 189 


从 这 个 列 联 表 能 够 看 出 学 历 高 的 比较 学 历 低 的 更 想 跳 模 吗 ? 
思考 一 下 : 

1. 定性 变量 之 间 的 关系 也 要 由 数量 表示 , 这 就 是 不 同 变量 不 同 水 平 的 组 合 中 事件 
发 生 的 数目 或 频数 . 能 不 能 完全 不 用 数目 来 描述 定性 变量 之 间 的 关系 ? 请 举例 
说 明 . 

2. 完全 是 定性 变量 的 数据 倒 可 以 仅仅 由 字符 表示 (不 一 定 
请 举例 . : 








是 哑 元 ) 如 果 你 知道 ， 





1.4.3 ”定性 和 定量 变量 间 的 混和 关系 


例 1.1 和 例 1.2 中 的 变量 类 型 比较 单一 . 下 面 看 不 同类 型 变量 混和 的 例子 . 
例 1.3 出 生 婴 儿 数 据 (lowbwt.txt)， 该 数据 摘自 Hosmer .and Lemeshow 


(2000)', 给 出 了 189 个 初生 婴儿 的 重量 (BWT), 母亲 的 年 龄 (AGE), 怀孕 前 母 
亲 的 重量 (LWT), 母亲 小 产 次 数 (PTL, 0, 1,... 等 整数 ), 母亲 头 三 个 月 中 就 医 次 
数 (FTV, 0, 1… 等 整数 ) 等 定量 变量 ， 以 及 婴儿 是 否 过 重 (LOW, 旺 元 0 表示 大 
于 等 于 2500 元 , 1 代表 小 于 2500 殉 ), 母亲 是 否 吸 烟 (SMOKE, 哑 元 1 代表 “是 >, 0 代 
表 “ 否 ” ), 母 杀 是否 有 高 血压 (HT, 1 代表 “有 *, 0 代表 “没有 ”"), 母亲 是 否 有 子宫 过 
敏 (UI, 1 代表 * 有 ”, 0 代表 “没有 ”), 及 识别 号 码 (ID) 等 定性 变量 ， 人 们 试图 从 这 个 
数据 找 出 婴儿 重量 和 各 种 定性 和 定量 变量 之 间 的 关系 . 注意 , 这 个 数据 中 的 婴儿 是 
否 过 重 (LOW) 是 从 婴儿 重量 得 到 的 , 不 能 用 后 者 来 推断 前 者 . 


1.5 统计 、 计 算 机 与 统计 软件 


现代 生活 越 来 越 离 不 开 计 算 机 了 . 最 早 使 用 计算 机 的 统计 当然 更 离 不 开 计 算 
机 了 . 事实 上 , 最 初 的 计算 机 仅仅 是 为 科学 计算 而 设计 和 建造 的 . 大 型 计算 机 的 
最 早 一 批 用 户 就 包含 统计 . 现在 , 统计 仍然 是 进行 数字 计算 最 多 的 用 户 之 一 . 当然 
计算 机 现在 早已 脱离 了 仅 有 数字 计算 功能 的 单一 模式 , 而 成 为 百姓 生活 的 一 部 分 . 
计算 机 的 使 用 , 也 从 过 去 必须 学 会 计算 机 语言 到 只 需要 “傻瓜 式 * 地 点 击 自 标 . 结 
果 也 从 单纯 的 数字 输出 到 包括 漂亮 的 表格 和 图 形 在 内 的 各 种 形式 . 

统计 软件 的 发 展 , 也 使 得 统计 从 统计 学 家 的 圈 内 游戏 变 成 了 大 众 的 游戏 . 只 要 

1Hosmer and Lemeshow (2000) Applied Logistic Regression: Second Edition，These data are 


copyrighted by John Wiley & Sons Inc. and must be acknowledged and used accordingly. Data were 
collected at Baystate Medical Center, Springfield, Massachusetts during 1986. 
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输入 你 的 数据 , 点 几 下 鼠标 . 做 一 些 选项 , 马上 就 得 到 令 人 惊 到 的 漂亮 结果 了 ， 人 
们 可 能 会 问 , 是 否 傻瓜 式 统 计 软 件 的 使 用 可 以 代替 统计 课程 了 ? 当然 不 是 .数据 
的 整理 和 识别 , 方法 的 选用 , 计算 机 输出 结果 的 理解 都 不 像 使 用 傻瓜 相机 那样 简单 
可 靠 . 有 些 诸如 法 律 和 医学 方面 的 软件 都 有 不 少 警告 , 不 时 提醒 你 去 咨询 专家 . 但 
统计 软件 则 不 那么 负责 . 只 要 数据 格式 无 误 、 选 项 不 矛盾 而 且 不 用 零 作 为 除数 就 
一 定 给 你 结果 , 而 且 几 乎 没有 任何 警告 . 另外 , 统计 软件 输出 的 结果 太 多 , 即使 是 
同样 的 方法 , 不 同 软件 输出 的 内 容 还 不 一 样 , 有 时 同样 的 内 容 名 称 也 不 一 样 . 这 就 
使 得 使 用 者 大 伤 脑筋 . 即使 是 统计 学 家 也 不 一 定 能 解释 所 有 的 输出 . 因此 , 就 应 该 
特别 留神 , 明白 自己 是 在 干什么 . 不 要 在 得 到 一 堆 毫 无 意义 的 垃圾 后 还 沾沾自喜 . 

统计 软件 的 种 类 很 多 . 本 书 采 用 免费 的 自由 编程 软件 R 来 实现 我 们 的 目标 , 读 
者 可 以 点 不 费力 地 重复 书 中 所 有 的 例题 的 计算 . R 软 件 从 1995 年 问世 以 来 , 已 经 成 
为 世界 统计 学 家 的 首选 研究 和 教学 软件 . R 网 站 ! 拥有 世界 各 地 统计 学 家 贡献 的 大 
量 最 新 程序 包 (package), 这 些 程 序 包 以 飞快 的 速度 增加 和 更 新 , 已 从 2009 年 底 的 
大 约 1000 个 增加 到 2012 年 8 月 底 的 4009 个 , 仅 2012 年 8 月 份 就 增加 了 449 个 . 它们 代 
表 了 统计 学 家 创造 的 窑 新 的 统计 方法 .这 些 程序 包 的 代码 都 是 公开 的 2， 与 此 相 
对 比 , 所 有 商业 软件 远 没 有 如 此 多 的 资源 , 也 不 会 更 新 得 如 此 之 快 , 而 且 商 业 软 件 
的 代码 都 是 保密 的 昂贵 “黑匣子 ”. 在 发 达 国 家 , 不 能 想象 一 个 统计 研究 生 不 会 使 
用 及 软件 . 那里 很 多 学 校 都 开设 了 BR 软件 的 课程 . 今天 , 任何 一 个 统计 学 家 想 要 介 
绍 和 推广 其 创造 的 统计 方法 , 都 必须 提供 相应 的 计算 程序 , 而 发 表 该 程序 的 最 佳 地 
点 就 是 R 网 站 . 由 于 方法 和 代码 是 公开 的 , 这 些 方法 很 容易 引起 有 关 学 者 的 关注 ， 
这 些 关 注 对 研究 相应 方法 形成 群体 效应 , 推动 其 发 展 . 不 会 编程 的 统计 学 家 在 今天 
是 很 难 生 存 的 . 

在 学 校 中 讲授 任何 一 种 商业 软件 都 是 为 该 公司 做 义务 广告 , 如 果 没 有 相关 软 
件 公司 的 资助 , 就 没有 学 校 愿 意 花 钱 讲授 商业 软件 . 在 教学 中 使 用 盗版 软件 是 违法 
行为 , 绝对 不 应 该 或 明 或 暗 地 鼓 励 师 生 使 用 盗版 商业 软件 . 

无 论 从 编程 逻辑 还 是 技巧 上 , 对 及 软 件 编程 的 熟悉 无 疑 有 助 于 学 习 其 他 快速 
计算 的 编程 语言 , 比如 C 十 十 和 FORTRAN, 这 对 于 应 对 因 快 速 处 理 庞大 的 数据 集 
而 面临 的 巨大 的 计算 量 有 所 神 益 . 

了 软件 安装 和 运行 小 贴 士 


e 登录 及 网 站 (http:V//www. r-project .org/)3, 根据 说 明 从 你 所 选择 的 镜像 
网 站 来 下 载 并 安装 及 的 所 有 基本 元 素 . 


。 辣 左 边 变 元 赋值 语句 可 以 用 “=” 号 或 者 “<-”; 还 可 以 用 “->” 向 右 赋值 . 


。 运行 时 可 以 在 提示 码 “>” 后 逐 行 输入 指令 . 如 果 回 车 之 后 出 现 “ 十 ”号 , 则 说 明 
你 的 语句 不 完整 (得 在 十 号 后 面 继 续 输 入 ) 或 者 已 输入 的 语句 有 错误 . 
“网址 : http://www.r-project.org/. 


“除了 极 个 别 并 非 秘 密 的 子 程序 之 外 . 因为 它们 很 费时 间 , 用 机 器 代码 实行 . 
4 网 上 搜索 “R* 即 可 立 得 到 网 址 . 
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。 每 一 行 可 以 输入 多 个 语句 , 之 间 用 半角 分 号 “;” 分 隔 . 


e 所 有 代码 中 的 标点 符号 都 用 半角 格式 (基本 ASCII 码 ). 及 的 代码 对 于 字母 的 
大 小 号 敏感 . 变量 名 字 、 定 性 变量 的 水 平 以 及 外 部 文件 路 径 和 名 字 都 可 以 用 
中 文 . 


。 不 一 定 非得 键入 你 的 程序 , 可 以 粘贴 , 也 可 以 打开 或 新 建 以 R 为 扩展 名 的 文 
件 (或 其 他 文本 文件 ) 作 为 运行 脚本 , 在 脚本 中 可 以 用 Ctrl+8 来 执行 (计算 ) 光 
标 所 在 行 的 命令 , 或 者 仅 运行 光标 选中 的 任何 部 分 . 


。 出 现 的 图 形 可 以 用 Ctrl+W 或 ctrl+C 来 复制 并 粘贴 (前 者 像素 高 ) 或 者 通过 
菜单 存 成 所 需 的 文件 格式 . 


e 如 果 在 运行 时 点 击 Esc 则 会 终止 运行 . 


。 在 运行 完毕 时 会 被 问 到 “是 否 保 存 工作 空间 映像 ?”, 保存 的 结果 是 下 次 运行 
时 , 这 次 的 运行 的 结果 还 会 重新 载 入 内 存 , 不 用 重复 计算 , 缺点 是 占用 空间 . 
如 末 已 经 有 脚本 , 而 且 运 算 量 不 大 , 一 般 都 不 保存 . 如 果 你 点 击 了 保存 , 又 没 
有 输入 文件 名 , 这 些 结果 会 放 在 所 设 或 默认 的 工作 目录 下 的 名 为 .RData 的 
文件 中 , 你 可 以 随时 找到 并 删除 它 . 


注意 ， 从 ppt 或 word 文 档 等 各 种 非 文本 文件 中 复制 并 粘贴 到 及 上 的 代码 , 则 可 
能 存在 由 这 些 软件 自动 变换 的 首 字 大 写 或 者 左右 引号 等 造成 的 R 无 法 执行 的 
问题 . 


R 中 有 很 多 第 用 的 数学 函数 、 统 计 函 数 以 及 其 他 函数 . 可 通过 在 R 的 帮助 菜 
单 中 选择 “手册 (PDF 文件 )”, 在 其 附录 中 找到 各 种 常用 函数 的 内 容 . 


在 有 界面， 你 可 以 用 问号 加 函数 名 (或 数据 名 ) 来 得 到 该 函数 或 数据 的 
细节 ， 比 如 用 “?1m” 可 以 得 到 关于 线性 模型 函数 “lm” 的 各 种 细节 . 另 
外 ， 如 果 想 查看 在 MASS 程 序 包 中 的 稳健 线性 模型 “rim”， 在 已 经 打开 
该 程序 包 时 (用 library (MASS) 打 开 , 用 detach(package:MASS) 关 闭 ), 可 
用 “?rlm”" 来 得 到 该 函数 的 细节 . 如 果 MASS 没 有 打开 !, 或 者 不 知道 rim 在 哪个 
程序 包 , 可 以 用 “??rlm” 来 得 到 其 位 置 . 如 果 对 于 名 字 不 清楚 , 但 知道 有 部 分 
字符 , 比如 “lm”, 可 以 用 “apropos ("lm")” 来 得 到 所 有 包含 “m” 字 符 的 函数 
或 数据 . 


e。 如 果 想 知道 某 个 程序 包 有 哪些 函数 或 数据 则 可 以 在 及 的 帮助 菜单 上 选 
择 “Html 帮 助 ”, 再 选择 “Packages” 即 可 得 到 你 的 R 上 装载 的 所 有 程序 包 . 这 
个 “Html 帮 助 * 很 方便 , 可 以 链接 到 许多 帮助 (包括 手册 等 ). 

。 有 一 些 简化 的 函数 ， 如 加 减 乘除 乘 方 (“+，-，*，/，“”) 等 , 可 以 用 诸 
如 “?"+"” 这 样 的 命令 得 到 帮助 (不 能 用 “?+”). 


:通常 为 了 节省 内 存 以 及 避免 变量 名 字 混 杂 , 应 该 在 需要 时 打开 相应 的 程序 包 , 不 需要 时 关闭 . 
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e 你 还 可 以 写 关 于 代码 的 注释 : 任何 在 “#” 号 后 面 作为 注释 的 代码 或 文字 都 不 


。 你 可 能 会 遇 到 无 法 运行 过 去 已 经 成 功 运行 过 的 一 些 代码 , 或 者 得 到 不 同 结果 

的 现象 . 原因 往往 是 这 些 程序 包 经 过 更 新 , 一 些 函 数 选项 (甚至 函数 名 称 和 代 

码 ) 都 已 经 改变 ， ee 解决 的 办 法 是 序 看 该 
函数 , 或 者 查看 提供 有 关 函 数 的 程序 包 来 探索 一 下 究 


。 有 一 个 名 为 RStudio 的 自由 下 载 软件 可 以 更 方便 的 用 儿 个 窗口 来 展示 R 的 执 
行 、 运 行 历史 、 脚 本 文件 、 数 据 细 市 等 过 程 . 

1.6 ”小结 

这 一 章 主 要 描述 了 统计 领域 的 轮廓 , 还 说 明了 随机 性 所 可 能 包含 的 规律 性 . 
概率 是 对 不 确定 性 的 度量 . 统计 研究 的 对 象 是 变量 . 有 了 变量 , 特别 是 随机 变量 ， 
才能 够 有 目的 地 收集 与 该 变量 有 关 的 数据 , 对 数据 进行 分 析 , 并 且 得 到 人 们 感 兴趣 
的 结论 . 单独 变量 的 研究 很 重要 , 但 应 用 中 人 们 最 关心 的 是 变量 之 间 的 关系 . 研究 
各 种 变量 之 间 的 关系 占 了 本 书 的 大 部 分 内 容 . 为 了 进行 数量 分 析 , 使 用 计算 机 是 不 
可 避免 的 . 现代 应 用 统计 是 离 不 开 计 算 机 的 . 对 于 非 统 计 工作 者 来 说 , 能 够 使 用 顺 
手 的 统计 软件 来 处 理 数据 是 非常 重要 的 . 有 许多 统计 软件 可 供 选择 . 同时 还 要 清 


鼎 地 认识 \ 到 ,如果 选择 了 错误 的 方法 或 选用 了 无 关 的 变量 , 就 不 可 能 得 到 有 用 的 结 
论 . 计算 机 可 以 是 人 们 的 助手 , 但 不 能 代替 人 们 的 思维 . 


1.7 习题 
1. 举 出 你 所 知道 的 统计 应 用 例子 . 
2. 举 出 日 常生 活 中 随机 性 和 规律 性 的 例子 . 


3. 撕 一 个 角子 , 或 者 抛 一 个 钱币 100 次 , 记录 下 结果 , 并 用 此 来 解释 随机 性 和 规律 
性 以 及 概率 的 概念 . 


4. 你 使 用 过 统计 软件 或 者 利用 过 其 软件 中 的 统计 功能 吗 ? 你 有 什么 经 验 和 体会 ? 
5. 举 出 有 者 干 定量 变量 的 (假想 的 或 真实 的 ) 例 子 . 说 出 你 希望 得 到 的 结论 
6. 举 出 有 大 干 定性 变量 的 (假想 的 或 真实 的 ) 例 子 . 说 出 你 希望 得 到 的 结论 


7. 举 出 既 有 定性 变量 又 有 定量 变量 的 (假想 的 或 真实 的 ) 例 子 ， 说 出 你 希望 得 到 的 
结论 . 








8. 举 出 任何 涉及 变量 关系 的 例子 . 
9. 玲 例 讨论 各 种 变量 的 因果 关系 . 


10. 


11. 
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搜寻 到 RR 网 站 (http://www.r-project.org/), 并 在 CRAN (The Comprehensive 
R. Archive Network) 的 镜像 网 站 (CRAN mirror) 下 载 R 的 基本 软件 (Base). 在 
你 的 计算 机 上 完全 安装 R 软 件 . 然后 阅读 “帮助 * 中 的 手册 (PDF 文 件 ). 你 就 可 
以 试 着 一 步 一 步 地 目 学 及 软件 的 使 用 了 . 


打开 有 软件, 通过 选项 文件 之 打开 程序 脚本 找到 光盘 中 的 文件 "及 练习 .R ,再 
用 其 中 提供 的 语句 尝试 R 软 件 , 每 执行 一 两 行 , 观察 输出 , 再 思考 一 下 . 自己 体 
会 其 中 的 规律 . 好 , 慢 慢 品尝 RR 的 奥妙 吧 ! (请 参看 上 面 “R 软 件 安装 和 运行 小 贴 
士 ?). 


1 这 个 练习 也 附 在 本 书后 面 ，、 
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第 二 章 ”数据 的 收集 


统计 的 对 象 是 世界 上 的 各 种 问题 , 要 得 到 人 们 感 兴趣 的 问题 所 包含 的 规律 , 就 
必须 收集 与 问题 相关 的 信息 , 也 就 是 数据 . 因此 , 在 收集 数据 之 前 , 必须 根据 问题 
的 性 质 , 找到 相关 的 变量 , 然后 再 收集 这 些 变量 的 观测 值 . 寻找 相关 变量 所 需要 的 
是 相应 领域 的 知识 , 统计 知识 本 吴 是 不 够 的 . 只 有 对 相关 变量 的 数据 做 出 分 析 , 才 
能 得 到 有 价值 的 结论 . 


2.1 数据 是 怎样 得 到 的 ? 


翻 开 报纸 、 打 开 电 视 或 网 页 . 就 可 能 看 到 各 种 数据 .比如 就 业 率 、 高 速 公路 
通车 里 程 、 物 价 指数 、 股 票 行 情 、 外 汇 牌 价 、 犯 罪 率 、 房 价 、 流 行 病 等 有 关 数 
据 , 还 有 包括 统计 局 系统 及 各 个 政府 机 构 定期 发 布 的 各 种 国家 经 济 数 据 、 进 出 口 
贸易 数据 及 税务 等 等 ， 从 这 些 数据 中 , 各 有 关 方 面 可 以 提取 对 自己 有 用 的 信息 . 这 
些 间接 得 到 的 数据 都 称 为 二 手数 据 . 

获得 第 一 手数 据 并 不 像 得 到 二 手数 据 那 么 轻松 . 某 些 企业 每 年 至 少 要 花 三 四 
干 万 元 来 收集 和 分 析 数 据 . 他 们 调查 其 产品 目前 在 市 场 中 的 状况 和 地 位 并 确定 其 
竞争 对 手 的 态势 ， 他 们 调查 不 同 地 区 、 不 同 阶层 的 民众 对 其 产品 的 认 知 程度 和 购 
买 意愿 ， 以 改进 产品 或 推出 新 品种 以 争取 新 顾客 ; 他 们 还 收集 各 地 方 的 经 济 交 通 
等 信息 , 以 决定 如 何 保住 现 有 市 场 和 开发 新 市 场 ， 市 场 信息 数据 对 企业 是 至 关 重 
要 的 . 他 们 很 舍得 在 这 方面 花 钱 . 因为 这 是 企业 生存 所 必需 的 , 不 能 是 可 有 可 无 . 

上 面 所 说 的 数据 是 在 自然 的 未 被 控制 的 条 件 下 观测 到 的 ， 称 为 观测 数 
据 (observational data)， 而 对 于 有 些 问题 , 比如 在 不 同 的 医疗 手段 下 某 疾 
病 的 治疗 结果 有 什么 不 同 , 在 不 同 的 肥料 和 土壤 条 件 下 某 农作物 的 产量 有 没有 区 
别 , 用 什么 成 分 可 以 提高 某 超 导 材 料 的 温度 等 等 . 这 种 在 人 工 干 预 和 操作 情况 下 
收集 的 数据 就 称 为 试验 数据 (experimental data). 


思考 一 下 : | 
1. 试图 起 象 你 自己 如 何 收集 关于 周围 人 群 购买 习惯 的 数据 . 需要 什么 变量 ? 
加 在 媒体 上 出 现 的 数目 中 多 为 单个 数目 ， 从 单个 数目 能 够 得 到 规律 吗 ? 














2.2 个体、 总体 和 样本 

要 想 了 解 北京 市 民 对 建设 北京 交通 设施 是 以 包括 轨道 运输 在 内 的 公共 交通 工 
具 为 主 还 是 以 小 汽车 为 主 的 观点 , 需要 进行 调查 , 调查 对 象 是 所 有 北京 市 民 , 调查 
目的 是 希望 知道 市 民 中 对 这 个 问题 的 不 同 看 法 各 自 占 有 的 比例 ， 显 然 , 不 可 能 
问 所 有 的 北京 市 民 , 而 只 能 够 问 一 部 分 , 并 且 根据 这 一 部 分 的 观点 来 理解 整个 北 


他 们 的 观点 称 为 (这 个 调查 问题 中 ) 的 个 体 (element， individual，unit), 而 称 
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所 有 北京 市 民 对 这 个 问题 的 观点 为 一 个 总 体 (population) 或 有 限 总 体 (finite 
population)”, 总 体 是 包含 所 有 要 研究 的 个 体 的 集合 . 而 调查 时 间 到 的 那 部 分 市 
民 的 观点 (也 就 是 部 分 个 体 ) 称 为 该 总 体 的 一 个 样本 (sample), 是 总 体 中 选 出 的 一 
部 分 . 当然, 也 有 可 能 试图 调查 所 有 的 人 (比如 人 口 普查 ), 那 叫 做 普查 (census). 
有 人 喜欢 把 作为 调查 对 象 的 北京 市 民 称 为 个 体 , 但 一 个 市 民 还 有 其 他 诸如 身高 、 
体重 、 收 入 、 职 业 、 教 育 程 度 等 大 量 其 他 特征 , 这 些 都 不 是 这 个 调查 的 目的 ， 实 
际 上 , 市 民 本 身 是 调查 对 象 , 而 市 民 的 观点 才 应 称 为 个 体 . 

在 抽取 样本 时 , 如 果 总 体 中 的 每 一 个 体 都 有 同等 机 会 被 选 到 样本 中 , 这 种 抽 
样 称 为 简单 随机 抽样 (simple random sampling), 而 这 样 得 到 的 样本 则 称 为 
随机 样本 (random sample). 就 北京 交通 问题 的 调查 为 例 , 在 简单 随机 抽样 的 
情况 下 , 如 果 样 本 量 (sample size), 也 就 是 样本 中 个 体 的 数目 在 总 体 中 的 比例 
为 1/5000, 那么 , 无 论 在 东城 区 或 者 在 延庆 县 , 无 论 在 白领 阶层 还 是 蓝领 阶层 被 问 
到 的 人 的 比例 都 应 该 大 体 是 1/5000. 也 就 是 说 , 这 种 比例 在 总 体 的 任何 部 分 是 大 
体 不 变 的 . 换言之 , 在 随机 抽样 的 一 个 样本 中 各 个 不 同 特征 人 群 的 比例 和 他 们 在 
恕 体 中 的 比例 应 该 类 似 . 随机 抽样 这 就 像 从 一 锅 搅 和 均匀 的 八 宝 缆 中 囊 出 一 勺 ， 
其 中 各 种 成 分 的 比例 应 该 和 锅 里 的 比例 大 致 一 样 . 

大 小 为 N 的 总 体 中 产生 样本 量 为 n 的 随机 样本 的 一 个 常用 的 方法 是 利用 随机 
数 (random number) ,其 步骤 为 : (1) 先 把 总 体 的 所 有 个 体 编号 , (2) 然 后 产 
生 n 个 在 0 到 NN 之 间 的 随机 数 , (3) 与 如 此 产生 的 随机 数 中 的 数 日 相同 的 个 体 则 形成 
了 样本 量 为 n 的 简单 随机 样本 . 那么 , 如 何 获得 随机 数 呢 ? 最 原始 的 办 法 是 掷 -一 种 
正 20 面 体 的 均匀 材料 制 成 的 骨 子 , 其 20 个 表面 标 有 两 套 0 到 9 的 数字 , 每 掷 一 次 产 
生 一 个 0 到 9 的 数字 . 假定 总 体 大 小 N = 1200, 而 样本 量 n = 50， 人 们 可 以 掷 这 个 
丛 子 4 次 (或 者 掷 4 个 不 同 颜色 的 人 般 子 , 每 个 颜色 代表 一 位 数 ) 产 生 一 个 4 位 数目 . 这 
样 不 断 手 下 去 直到 得 到 50 个 在 1 和 1200 之 间 的 数目 . 这 就 是 所 需要 的 随机 数 . 另 一 
种 得 到 随机 数 的 方法 是 查阅 随机 数 表 . 在 一 些 传统 的 统计 教科 书 中 可 以 找到 随机 
数 表 , 也 有 专门 的 随机 数 表 的 册子 . 随机 数 表 的 数目 无 论 从 页 数 、 行 或 列 来 看 都 
是 随机 的 . 比如 六 = 1200, 而 n = 50, 那么 , 在 随机 数 表 中 可 以 取 4 列 , 然后 往 下 找 
到 50 个 在 1 和 1200 之 间 的 数目 即 可 . 当然 , 用 随机 数 表 产生 随机 数 的 方式 还 有 很 多 . 
这 里 不 多 讲 . 在 广泛 使 用 计算 机 的 今天 , 为 了 方便 , 很 多 实际 工作 者 应 用 计算 机 所 
产生 的 伪 随 机 数 (pseudo-random number) 来 代替 真正 的 随机 数 .3 

在 实践 中 , 得 到 随机 样本 不 容易 . 很 多 搞 调查 的 人 就 采取 简单 的 办 法 . 还 以 北 
乐 的 交通 问题 的 调查 为 例 . 如 果 按 照 随机 选 出 的 电话 号 码 进行 调查 , 则 肯定 节省 
时 间 和 资源 , 但 这 样 得 到 的 就 不 是 一 个 随机 样本 了 . 首先 , 没有 电话 的 阶层 就 不 会 
被 问 到 . 另外 , 如 果 号 码 是 从 住户 号 码 中 选 , 那么 白天 打住 户 电话 , 得 到 的 多 半 是 


注意， 这 里 的 术语 总 体 和 与 概率 分 布 结合 的 总 体 (样本 空间 ) 概 念 有 所 不 同 , 但 如 果 确 定 了 抽样 方法 ， 
那么 这 里 的 总 体 中 所 感 兴趣 的 个 体 的 个 数 或 比例 则 可 以 用 后 面 的 总 体 概念 中 的 分 布 参数 来 描述 .请 参看 本 
章 总 结 一 节 中 的 注 . 

“这 里 所 说 的 随机 数 的 意义 是 指 任 何在 nn 个 在 0 到 NN 之 间 的 数目 都 有 同等 的 机 会 被 选中 , 更 广义 的 随机 数 
是 独立 同 分 布 的 随机 变量 的 实现 . 参见 后 面 第 四 章 . 

3 用 RR 软件 可 以 产生 各 种 分 布 的 随机 数 , 比如 用 x 一 runif(100, 2,3) 可 以 产生 100 个 2 和 3 之 间 的 伪 随 机 数 . 
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白天 不 在 单位 工作 的 人 的 意见 . 即使 都 在 家 , 那 一 家 人 无 论 多 少 口 人 一 般 就 只 有 接 
电话 人 的 观点 被 调查 到 . 这 一 类 的 样本 称 为 方便 样本 (convenience sample). 
在 调查 中 , 即使 选择 对 象 的 确 是 随机 的 , 最 理想 的 情况 所 得 到 的 样本 也 只 代表 那 
些 愿意 回答 问题 人 的 观 操 所 组 成 的 总 体 , 而 不 愿 回答 问题 的 人 的 观点 永远 不 会 得 
到 . 这 种 不 回答 所 造成 的 问题 是 抽样 调查 特有 的 问题 . 在 其 他 问题 中 , 也 有 使 用 方 
便 样本 的 情况 . 比如 在 肺 瘤 研究 中 , 人 们 往往 看 到 吸烟 和 肺癌 关系 的 数据 , 这 些 数 
据 多 半 不 是 从 整个 人 群 中 采集 的 随机 样本 , 它们 可 能 只 是 医院 中 的 病人 记录 中 得 
到 的 . 在 杂志 和 报纸 上 也 有 问卷 , 但 得 到 的 只 是 拥有 这 份 报刊 , 而 且 愿 意 回 答 的 人 
的 观点 . 

思考 一 下 : 


1. 在 衙 上 向 随机 遇 到 的 人 提问 , 这 样 得 到 的 样本 是 随机 样本 吗 ? 在 什么 限定 条 件 
下 它 可 能 是 随机 样本 ? 


2. 网 上 有 许多 调查 , 这 些 调 查 关 于 什么 总 体 可 以 说 是 随机 样本 ? 















2.3 收集 数据 时 的 误差 


假定 在 某 一 职业 人 群 中 女性 占 的 比例 为 60%， 如果 在 这 个 人 群 中 抽取 一 些 
随机 样本 , 这 些 随 机 样本 中 女性 的 比例 并 不 一 定 刚好 是 60%, 可 能 稍微 多 些 或 
稍微 少 些 .这 是 很 正常 的 , 因为 样本 的 特征 不 一 定 和 总 体 完全 一 样 . 这 种 差异 
不 是 错误 , 而 是 必然 会 出 现 的 抽样 误差 (sampling error)， 刚 才 提 到 在 抽样 调查 
中 , 一 些 人 因为 种 种 原因 没有 对 调查 做 出 反应 (或 回答 ), 这 种 误差 称 为 未 响应 误 
差 (nonresponse error). 而 另 有 一 些 人 因为 各 种 原因 回答 时 并 没有 真实 反映 他 
们 的 观 后 , 这 称 为 啊 应 误差 (response error). 和 抽样 误差 不 一 样 , 未 响应 误差 
和 啊 应 误差 都 会 影响 对 真实 世界 的 了 解 , 应 该 在 设计 调查 方案 时 尽量 避免 


2.4 抽样 调查 和 一 些 常用 的 方法 


抽样 调查 (sampling survey) 的 领域 涉及 如 何 用 有 效 的 方式 得 到 样本 数据 . 
最 弟 用 的 问卷 调查 方式 包括 通过 邮件 报刊 网 络 等 手段 调查 、 电 话 调查 和 面对面 调 
查 等 ， 这 些 调 但 都 利用 了 问卷 (questionnaire), 而 问卷 的 设计 则 很 有 学 问 ， 它 
涉及 如 何 用 词 、 问 题 的 次 序 和 问题 的 选择 与 组 合 等 等 . 这 涉及 包括 心理 学 、 社 会 
学 等 知识 ， 面对面 调查 则 需要 对 调查 者 进行 培训 . 首先 , 问卷 中 的 问题 数目 不 能 
太 多 . 太 多 了 , 回答 者 就 会 厌倦 , 而 不 能 得 到 真实 结果 . 为 了 提高 效率 , 问题 一 般 
部 是 选择 题 , 但 选择 项 不 宜 过 多 . 问题 的 语言 应 该 和 被 调查 者 的 文化 水 平 相 适应 ， 
通俗 易 履 , 但 又 要 准确 而 不 至 于 造成 误解 . 笔者 曾经 见 到 一 个 失败 的 问卷 , 后 来 在 
研究 生 课 上 让 他 们 理解 该 问卷 的 问题 , 结果 多 数 研究 生 不 能 理解 或 者 做 相反 的 理 
解 . 有 时 本 来 被 访 者 没有 观点 , 但 问卷 的 措辞 使 得 被 访 者 觉得 一 定 要 选择 一 个 观 
点 . 问题 的 次 序 也 很 重要 , 简单 的 在 先 , 等 到 “热身 ”以 后 , 再 提 敏 感 的 和 核心 的 问 
题 , 这 在 面对面 调查 时 尤为 重要 . 另外 , 注意 问题 的 相关 性 可 能 会 使 人 觉得 必须 前 
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后 一 致 , 比如 , 在 前 面 问 题 中 , 被 访 者 问答 说 支持 公共 交通 , 而 在 后 面 问 是 否 购买 
小 轿车 时 , 可 能 承 会 犹 耶 , 觉得 应 该 回答 “个 买 " 才 和 前 面 一 致 , 其实 这 两 个 问题 并 
不 必要 联系 起 来 . 在 面对面 调查 中 . 调查 者 的 选择 也 很 重要 , 不 能 想象 , 一 个 西装 
革履 的 调查 者 能 够 从 贫困 人 群 中 对 某 些 敏感 问题 得 到 真实 可 信 的 回答 . 也 有 不 包 
含 问 卷 的 抽样 调查 ,比如 , 对 个 人 或 企业 的 信用 记录 的 抽样 . 对 个 人 或 企业 的 纳税 
记录 的 抽样 等 , 也 可 以 用 计算 机 从 大 型 数据 库 来 抽样 . 

抽样 调查 的 设计 的 目的 之 一 是 确保 样本 对 总 体 的 代表 性 ,以 保证 后 继 推断 的 
可 靠 性 . 前 面 说 到 , 每 个 个 体 等 可 能 的 简单 随机 抽样 是 一 个 理想 情况 .这 种 简单 
随机 抽样 是 概率 抽样 方法 (probability sampling method) 的 一 个 特例 . 概率 
抽样 假定 每 个 个 体 出 现在 样本 中 的 概率 是 已 知 的 . 这 种 概率 抽样 方法 使 得 数据 能 
够 进行 合理 的 统计 推断 ,但 是 为 了 节省 调查 的 费用 和 时 间 . 常常 采取 基于 方便 或 
第 识 判断 的 非 概率 抽样 方法 (nonprobability sampling method). 对 从 非 概 
率 抽样 得 到 的 数据 进行 推断 要 非常 慎重 . 它 依赖 于 具体 的 抽样 方案 是 如 何 设计 的 . 
也 依赖 于 它 是 如 何 实 施 的 . 这 种 推断 往往 无 法 根据 漂亮 的 统计 理论 来 进行 也 很 
难 客 观 地 建立 抽样 误差 的 范围 . 

在 抽样 调查 时 , 最 理想 的 样本 是 前 面 提 到 的 简单 随机 样本 但 是 由 于 实践 起 
来 不 方便 , 在 大 规模 调查 时 一 般 不 用 这 种 全 部 随机 抽样 的 方式 , 而 只 是 在 局 部 采用 
随机 抽样 的 方法 . 下 面 介 绍 几 种 抽样 方法 . 这 里 没有 深奥 的 理论 , 读者 完全 可 以 根 
据 常 识 判 断 在 什么 情况 下 无 法 获取 简单 的 随机 样本 , 以 及 下 面 的 每 个 方法 有 什么 
好 处 和 缺陷 . 对 于 它们 上 基体 的 设计 、 实 施 与 数据 分 析 . 有 许多 专门 的 书籍 , 就 不 在 
这 里 缆 述 了 . 另外 , 一 般 仅 有 少数 人 有 机 会 来 确定 抽样 方案 . 读者 仅 需 把 这 些 方法 
当成 常识 来 了 解 就 可 以 了 . 下 面 是 一 些 概 率 抽样 方法 . 


1. 系统 抽样 (systematic sampling). 这 也 称 为 每 nn 个 名 字 选 择 方法 (n-th name 
selection technique) 这 是 先 把 总 体 中 的 每 个 单元 编号 , 然后 随机 选取 其 中 之 一 
作为 抽样 的 开始 点 进行 抽样 . 根据 预定 的 样本 量 决定 “距离 "mn. 在 选取 开始 点 
之 后 , 通常 从 开始 点 开始 按照 编号 进行 所 谓 等 距 抽样 . 也 就 是 说 , 如 果 开 始点 
为 5 号 “距离 "为 二 10. 则 下 面 的 调查 对 象 为 15 号 、25 号 等 等 . 不 难 想象 , 如 
果 编 号 是 随机 选取 的 , 则 这 和 简单 随机 抽样 是 等 价 的 . 


2. 分 层 抽样 (stratified sampling). 这 是 简单 随机 抽样 的 一 个 变种 , 先 把 要 研 
究 的 总 体 按照 分 成 相对 相似 或 相对 齐 次 (relatively homogeneous) 的 个 体 
组 成 的 类 (stratum), 再 在 各 类 中 分 别 抽 取 简 单 随机 样本 . 然后 把 从 各 类 得 到 
的 结果 汇总 , 并 对 总 体 进行 推断 . 在 每 类 中 调查 的 人 数 通常 是 按照 该 类 人 的 比 
例 , 但 出 于 各 种 考虑 , 也 可 能 不 按照 比例 , 也 可 能 需要 加 权 ( 加 权 就 是 在 求 若干 
项 的 和 时 , 对 各 项 乘 以 不 同 的 系数 , 这 些 系数 的 和 通常 为 1)， 比 如 在 一 项 教育 程 
度 可 能 和 某 些 结果 有 关 的 调查 中 , 可 以 按照 教育 程度 把 要 访问 的 人 群 分 成 几 类 ， 
再 在 每 一 类 中 调查 和 该 类 成 比例 数目 的 人 . 这 样 就 确保 了 每 一 类 都 有 相应 比例 
的 代表 . 分 层 抽样 的 一 个 副产品 就 是 同时 可 以 得 到 各 类 的 结果 . 


3. 整 群 抽样 (cluster sampling). 这 是 先 把 总 体 划分 成 若干 群 (cluster)， 和 分 


层 抽 样 不 同 , 这 里 的 群 是 由 不 相似 或 异类 的 (heterogeneous) 个 体 组 成 . 在 单 
级 整 群 抽样 (single-stage cluster sampling) 中 , 先 (通常 是 随机 地 ) 从 这 些 
群 中 抽取 几 群 ,然后 再 在 这 些 抽 取 的 群 中 对 个 体 进 行 全 面 调查 . 在 两 级 整 群 抽 
样 (two-stage cluster sampling) 中 , 先 (通常 是 随机 地 ) 从 这 些 群 中 抽取 几 
群 , 然后 再 在 这 些 抽取 的 群 中 对 个 体 做 简单 随机 抽样 . 比如, 在 某 县 进行 调查 ， 
首先 在 所 有 村 中 选取 若干 村 子 , 然后 只 对 这 些 选中 的 村 子 的 人 进行 全 面 或 抽样 
调查 . 显然, 如 果 各 村 情况 差异 不 大 , 这 种 抽样 还 是 方便 的 .否则 就 会 增 大 误 
差 了 . 整 群 抽样 的 主要 应 用 是 所 谓 区 域 抽样 (area sampling), 那 时 , 群 就 是 
县 、 镇 、 街 区 或 者 其 他 适当 的 关于 人 和 群 的 地 理 划 分 . 


, 多 级 抽样 (multistage sampling). 在 群体 很 大 时 , 往往 在 抽取 若干 群 之 后 ， 
再 在 其 中 抽取 者 干 子 群 ,甚至 再 在 子 群 中 抽取 子 群 , 等 等 . 最 后 只 对 最 后 选 定 
的 最 下 面 一 级 进行 调查 .比如 在 全 国 调查 时 , 先 抽取 省 , 再 抽取 市 地 , 再 抽取 县 
区 , 再 抽取 乡 、 村 直到 户 . 在 多 级 抽样 中 的 每 一 级 都 可 能 采取 各 种 抽样 方法 . 
因此 , 整个 抽样 计划 可 能 比较 复杂 , 也 称 为 多 级 温和 型 抽样 . 


非 概率 抽样 的 方法 的 例子 有 : 


. 目的 抽样 (purposive sample). 这 是 由 研究 人 员 主 观 地 选择 对 象 . 比如 在 民 
意 调查 中 , 在 富 人 、 中 产 阶级 、 穷 人 的 街区 各 取得 一 些 样本 , 样本 多 少 依赖 于 
预先 就 有 的 知识 . 


2. 方便 抽样 (convenience sampling). 它 用 于 探索 性 的 研究 , 研究 人 员 以 较 少 


的 花费 得 到 对 客观 情况 的 近似 . 这 种 非 概 率 抽样 常用 于 初期 的 评估 ， 比 如 ,你 
为 了 调查 游客 的 意见 , 你 可 以 选择 不 同 的 时 间 和 旅游 景点 , 随意 对 愿意 停 下 的 
游客 进行 调查 . 有 时 看 起 来 是 随机 , 但 实际 上 不 是 . 


. 判 新 抽样 judgment sampling). 研究 人 员 赁 经 验 判断 来 选择 样本 , 它 通常 
是 方便 抽样 的 延伸 ， 比 如 要 研究 各 县 的 情况 , 而 研究 人 员 仅 在 一 个 县 中 抽样 ， 
认为 该 县 能 够 代表 其 他 县 . 


. 定额 抽样 (quota sampling) 与 概率 抽样 中 的 分 层 抽 样 类 似 . 先是 确定 各 类 及 
比例 , 然后 利用 方便 抽样 或 判断 抽样 来 从 每 一 类 中 按 比例 选取 需要 的 个 体 数 . 


. 雪 球 抽样 (snowball sampling). 它 用 于 感 兴趣 的 样本 特征 较 稀 有 的 情况 , 依 
赖 于 一 个 目标 推荐 男 一 个 目标 的 方法 , 比如 想 要 调查 吸毒 者 的 情况 , 你 先 找到 
一 个 和 吸毒 者 有 关 的 人 , 然后 他 (她 ) 会 介绍 你 找到 其 他 的 人 . 虽然 减少 了 花费 ， 
但 可 能 产生 较 大 偏差 . 


. 自我 选择 (self-selection). 这 是 让 个 体 自愿 参加 调查 ， 比 如 对 高 血压 病 防 治 
的 调查 , 一 些 人 会 作为 自愿 者 来 参加 . 


实际 上 的 抽样 通常 都 可 能 是 各 种 抽样 方法 的 组 合 . 既 要 考虑 精确 度 , 还 要 根据 


客观 情况 考虑 方便 性 、 可 行 性 和 经 济 性 . 不 能 一 概 而 论 . 


18 ”统计 学 :从 数据 到 结论 








思考 一 下 : 
， 在 一 个 大 学 中 按照 学 号 随机 抽取 一 些 学 生来 调查 是 不 是 随机 样本 , 在 什么 情况 


下 是 ? 
2. 按照 男女 比例 ,在 男女 生 中 随机 抽样 属于 什么 类 型 的 抽样 ? 


3. 在 学 校 中 随机 抽取 一 些 系 , 再 随机 抽取 一 些 班级 , 然后 骨 进 行 随机 抽样 , 这 是 
哪 一 类 抽样 ? 











2.5 “计算 机 中 常用 的 数据 形式 


数据 是 由 一 些 变 量 和 它们 的 观测 值 所 组 成 .在 第 一 革 的 例子 已 经 介绍 了 一 
些 数据 ， 下 表 的 例子 就 是 调查 人 们 对 某 个 问题 观点 的 一 个 数据 的 方 阵 形 式 . 其 
中 有 6 个 变量 : 观点 (观测 值 为 支持 、 反 对 和 不 知道 三 种 )、 教 育 程 度 ( 有 高 中 低 
三 种 取 值 , 用 HH、M、 工 表示 )、 月 收入 ( 取 值 为 实际 数 子 )、 性 别 ( 取 值 有 男女 两 个 ， 
用 M 和 F 表 示 ) 以 及 地 区 号 (用 数字 1, 2, 3, 4 表示 ) 等 . 该 表 一 共有 1364 个 观测 值 ( 问 
卷 回答 ). 可 以 看 出 这 些 变量 有 定性 (属性 ) 变 量 , 也 有 定量 (数值 ) 变 量 . 按照 这 个 数 
据 的 格式 , 每 一 列 为 一 个 变量 的 不 同 观测 值 , 而 每 一 行 则 称 为 一 个 观测 值 , 它 是 个 
由 数量 值 和 属性 值 组 成 的 向 量 , 每 一 个 值 相 应 于 一 个 变量 . 


对 菜 项 政策 的 观点 调查 的 原始 数据 形式 


















观点 | 教育 程度 | 月 收入 | 性 别 : 
1 文 持 H 1600 M 1 
2 文 持 M 1720 F 1 
3 反对 L 700 M 1 
4 支持 H | 2000 F 2 
5 不 知道 M 1000 M 2 
6 不 知道 L 600 F 1 
1363 反对 L 1080 M 4 
1364 | 支持 | H 2100 M 3 








还 可 以 抽取 该 数据 的 部 分 形成 一 些 汇总 表格 , 供 在 文献 中 研究 和 展示 之 用 , 但 
汇总 后 表格 (如 上 表 ) 痢 不 是 计算 机 常用 的 数据 形式 . 这 些 汇总 表格 简单 明了 , 是 通 
常 媒体 上 最 常见 的 形式 之 一 . 但 是 从 高 维 表 汇总 来 的 低 维 表 不 能 还 原 成 原始 的 高 
维 表 , 肯定 损失 一 些 有 用 的 信息 . 因此 , 在 做 分 析 时 , 尽量 使 用 原始 数据 , 汇总 加 工 
过 的 数据 信息 损失 很 大 , 一 般 只 能 作为 最 终 展示 结果 , 而 不 宜 作 为 原始 材料 来 做 数 
据 分 析 . 

对 于 比较 复杂 的 问题 , 一 个 数据 可 能 由 多 个 数据 文件 组 成 , 或 者 有 特别 的 格 
式 , 不 一 定 都 是 单一 的 方 阵 形式 . 
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. 最 彻底 的 汇总 是 把 每 个 变量 的 所 有 数据 求 和 , 或 者 求 平均 , 得 到 一 个 数目 , 但 
这 就 没有 任何 做 进一步 统计 分 析 的 余地 了 . 


. 统计 部 门 公布 的 许多 数据 都 是 汇总 数据 , 仅仅 是 为 展示 而 用 . 请 分 别 举 出 一 
原始 数据 和 加 工 过 的 数据 的 例子 . 并 说 明 在 加 工 过 的 数据 中 , 哪些 信息 永远 
去 了 . 





2.6 小结 


本 章 概述 了 数据 的 获取 .数据 可 以 按照 是 否 可 以 控制 有 关 因 素 划 分 为 试验 数 
据 和 观测 数据 , 也 可 以 根据 数据 获得 的 途径 划分 为 一 手数 据 和 二 手数 据 . 数据 往 
往 是 从 总 体 中 抽取 出 来 的 , 所 以 , 它 是 总 体 的 一 个 代表 , 称 为 样本 . 样本 有 简单 随 
机 样本 , 也 有 方便 样本 , 依 抽样 时 采取 的 方法 而 定 . 收集 数据 时 , 会 有 必然 出 现 的 
不 是 错误 的 抽样 误差 , 也 可 能 出 现在 调查 实践 中 应 该 避免 的 未 啊 应 误差 和 啊 应 误 
差 . 本 章 还 介绍 了 抽样 调查 和 在 抽样 调查 时 常用 的 几 种 抽样 方法 , 即 分 层 抽 样 、 
整 群 抽样 、 多 级 抽样 和 系统 抽样 等 . 实际 的 抽样 过 程 可 能 是 这 些 抽 样 的 组 合 . 一 
句 话 , 收集 数据 或 抽取 样本 是 为 了 从 样本 中 得 到 总 体 的 信息 . 因此 数据 收集 是 否 妥 
当 , 关系 到 后 继 分 析 和 推断 的 结果 是 否 合 理 . 最 后 , 还 介绍 了 常用 的 计算 机 使 用 的 
数据 形式 . 主要 形式 是 由 变量 和 观测 值 组 成 的 方 阵 形式 . 
关于 总 体 术 语 的 不 同 概念 的 注 

后 面 有 关于 总 体 参 数 的 推断 的 内 容 , 那里 的 总 体 ( 样 本 空间 ) 和 抽样 调查 中 的 
原始 的 不 包含 概率 分 布 ( 也 就 是 不 涉及 抽样 方法 ) 的 有 限 总 体 有 所 不 同 . 为 了 不 使 
读者 困惑 , 这 里 加 上 关于 总 体 概念 的 注 , 并 把 这 里 的 有 限 总 体 根据 不 同 的 抽样 实践 
和 超 几 何 分 布 或 二 项 分 布 结合 , 使 得 对 抽样 调查 涉及 的 有 限 总 体 中 感 兴趣 个 体 的 
个 数 或 比例 可 以 通过 对 后 面 意义 上 的 总 体 参数 的 推断 来 研究 . 这 里 涉及 的 一 些 概 
率 分 布 可 在 第 四 章 找 到 . 

注意 , 前 面 在 抽样 调查 例子 中 引进 的 术语 “总 体 ” 是 人 们 所 关心 的 所 有 个 体 
的 集合 {成 为 有 穷 的 样本 空间 ), 也 称 为 有 限 总 体 . 这 个 总 体 是 一 个 客观 存在 的 事 
物 , 和 人 们 抽样 的 实践 无 关 . 此 外 , 术语 总 体 还 在 概率 论 中 被 用 来 表示 另外 一 个 概 
念 , 这 就 是 样本 空间 (sampling space), 它 定 义 为 所 有 和 某 个 试验 相关 的 基本 事 
件 的 集合 . 任何 不 可 分 解 的 试验 结果 被 一 个 而 且 仅 仅 被 一 个 样本 空间 的 点 ( 称 为 样 
本 点 , sample point) 所 代表 . 样本 空间 是 一 个 抽象 的 集合 , 包括 了 定义 在 其 子 集 
的 o 一 代数 上 的 概率 测度 i. 比如 , 用 通俗 的 话 来 说 , 一 个 正 态 总 体 包 括 了 一 个 服从 
某 正 态 分 布 的 试验 (比如 对 某 个 物体 用 精密 天 平 称 重 ) 的 所 有 可 能 取 值 范围 及 该 正 
态 分 布 本 身 . 而 一 个 由 nn 个 Bernoulli 试 验 定义 的 二 项 总 体 则 包括 了 这 些 试验 的 所 
有 可 能 取 值 (在 ?次 试验 中 可 能 成 功 的 次 数 , 即 0 到 nn 之 间 的 整数 ) 加 上 该 二 项 分 布 本 

1 这 一 句 中 的 o 一 代数 和 概率 测度 为 高 等 概率 论 的 术语 , 读者 不 必 在 意 , 写 在 这 里 仅仅 是 为 了 让 教师 和 感 

兴趣 的 读者 感到 概念 的 完整 性 . 
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身 . 这 都 是 理论 上 的 总 体 , 用 来 描述 随机 现象 的 规律 性 . 这 些 总 体 都 有 总 体 参数 ， 
如 正 态 分 布 中 的 均值 4W 和 方差 c?, 二 项 分 布 中 Bernoulli 试 验 的 成 功 概率 p 等 等 ， 这 
些 总 体 参 数 可 以 通过 试验 结果 (样本 ) 的 一 些 统计 量 来 进行 推断 ， 

如 朱 确 定 了 抽样 方法 , 则 前 面 提 到 的 抽样 调查 中 的 (有 限 ) 总 体 的 特征 也 可 以 
通过 一 些 和 概率 相 联系 的 总 体 参数 来 进行 研究 . 如 果 抽 样 调查 为 在 有 限 总 体 (总 体 
量 为 和 N) 中 的 不 放 回 随机 抽样 (样本 量 为 t), 即 每 个 个 体 有 相同 的 机 会 被 抽 到 , 而 人 
们 感 兴趣 的 是 该 总 体 中 有 某 种 特征 的 个 体 数 (未 知 的 m), 那么 这 种 抽样 可 以 用 超 
儿 何 分 布 (其 总 体 参数 为 N,t,m) 来 描述 , 这 里 有 限 总 体 的 感 兴趣 的 个 体 数 rm 和 超 
几何 分 布 的 总 体 参 数 m 就 是 一 致 的 了 ,对 该 有 限 总 体 的 感 兴趣 个 体 的 数目 rm, 可 
以 用 对 超 几 何 分 布 的 总 体 参 数 m 的 推断 来 进行 研究 . 当然 有 了 m, 就 有 了 总 体 比 
例 (population proportion) p = m/N (如果 对 总 体 比例 感 兴趣 )， 如 果 抽 样 调 
查 的 总 体 很 大 , 随机 抽样 (样本 量 为 n) 可 以 看 成 为 不 放 回 抽样 , 如 果 人 们 感 兴趣 的 
个 体 在 有 限 总 体 中 的 比例 是 (总 体 比例 )p. 这 时 抽样 可 以 用 总 体 参 数 为 n 和 wp 的 二 项 
分 布 来 近似 描述 . 这 时 , 有 限 总 体感 兴趣 的 个 体 的 总 体 比 例 p 和 二 项 分 布 的 总 体 参 
数 p 束 是 一 致 的 了 . 对 二 项 分 布 参数 (试验 “成 功 ” 概 率 )p 的 推断 和 对 总 体 比 例 p 的 推 
断 就 一 致 了 . 


2.7 习题 

1. 举 出 一 些 观测 数据 和 试验 数据 的 例子 . 

2. 举 出 简单 随机 样本 的 例子 . 

3. 根据 你 的 经 验 , 举 出 总 体 和 样本 的 一 些 具体 例子 . 
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. 举 出 调查 抽样 时 可 能 发 生 的 各 种 影响 调查 结果 的 问题 , 并 且 提 出 你 认为 可 以 减 
少 或 避免 这 些 问题 的 建议 . 


5. 根据 你 的 直觉 , 本 章 提 到 的 几 种 抽样 方法 的 优 缺 点 是 什么 ? 原因 何在 ? 
6. 举 出 一 些 书 报 上 发 表 的 数据 例子 , 并 指出 哪些 是 变量 , 哪些 是 观测 值 . 
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当 见 过 一 个 人 之 后 , 你 首先 对 这 个 人 的 外 表 有 个 印象 , 比如 高 矮 胖 瘦 等 等 , 但 
更 详细 的 也 许 一 时 说 不 出 来 . 然而 , 当 你 再 看 到 这 个 人 或 者 这 个 人 的 照片 时 , 会 马 
上 又 认 出 来 . 这 说 明 你 的 大 脑 中 对 这 个 人 除了 高 矮 胖 瘦 之 外 还 储存 了 一 些 其 他 的 
信息 , 只 不 过 一 时 难以 用 语言 描绘 而 已 , 这 些 信息 并 不 是 这 个 人 的 全 部 信息 , 但 能 
够 有 反映 出 其 某 些 关键 特征 . 一 大 堆 数 目 本 身 也 往往 会 使 人 眼花 综 乱 . 没有 人 能 够 
记 住 那些 巨大 的 数据 中 的 所 有 数值 , 但 总 是 可 以 对 数据 形成 一 些 印 象 . 有 些 特征 大 
略 了 解 一 下 就 可 以 得 到 . 比如 , 这 些 数值 的 大 致 范围 , 是 定性 还 是 定量 的 , 有 和 多少 
变量 , 以 及 收集 该 数据 的 目的 等 等 . 实际 上 , 借助 于 一 些 图 形 和 简单 的 运算 , 还 可 
以 了 解 一 个 数据 的 更 多 的 特征 . 本 章 介 绍 如 何 用 简单 图 表 和 少数 的 一 些 数字 来 概 
括 数 据 的 某 些 特征 . 当然 , 由 于 数据 是 从 总 体 中 产生 的 , 其 特征 也 反映 了 总 体 的 特 
任 . 对 数据 的 描述 也 是 对 其 总 体 的 一 个 近似 的 描述 . 


3.1 如何 用 图 来 表示 数据 ? 


z 人 们 对 各 种 图 表 并 不 陌生 , 在 中 小 学 时 , 就 可 能 接触 到 各 种 关于 成 绩 、 某 项 活 

动 的 进度 或 者 国家 发 展 的 各 种 曲线 和 图 表 等 等 . 在 电视 、 报 刊 和 网 络 上 , 也 经 常 
有 表现 股票 行情 和 走势 以 及 其 他 经 济 和 社会 活动 的 图 形 . 这 些 都 是 统计 图 形 . 下 
面 仅仅 把 你 们 可 能 已 经 见 过 的 一 些 统计 图 形 做 更 详细 的 解释 , 可 能 还 会 给 它们 起 
些 专 业 名 字 . 这 些 细节 并 不 用 记 , 只 要 能 够 理解 图 形 的 意义 并 会 使 用 计算 机 软件 
画 出 你 需要 的 图 形 就 行 了 . 


3.1.1 定量 变量 的 图 表示 : 直方 图 、 盒 形 图 、 茎 叶 图 和 散 点 图 
1. 直方 图 


直方 图 (histogram) 是 定量 变量 最 常用 的 图 表示 之 一 . 其 作法 是 , 把 横 轴 分 
成 才干 通常 是 等 宽度 的 区 间 , 然后 计算 数据 在 各 个 区 间 上 的 频数 , 并 在 各 区 间 上 夯 
出 高 度 与 数据 在 相应 区 间 的 频数 成 比例 的 和 矩形 条 . 纵 坐 标 当然 也 可 能 是 比例 , 即 
把 频数 除 以 样本 量 , 而 不 一 定 是 频数 , 但 这 并 不 改变 图 的 形状 , 而 仅仅 造成 纵 坐 标 
单位 的 不 同 . 


例 3.1 (数据 : Billianaires.txt) 该 数据 为 福布斯 (Forbes) 公 司 根据 直 
全 2012 年 3 月 的 资料 提供 的 净 资 产 超过 10 亿 美元 的 世界 富豪 排行 榜 !, 展示 了 世 
夫 最 罕有 的 1223 个 人 (有 的 包括 家 族 ) 的 名 次 (Rank, 为 正 整数 , 越 小 越 富 )、 名 
字 (Name)、 净 资产 (Net.Worth, 单位 10 亿 美元 )、 年 龄 (Age)、 资 产 来 源 (Source， 
有 关 行 业 等 信息 )、 国 籍 (Country.of .Citizenship)、 也 就 是 说 有 6 个 变量 ， 其 中 
名 次 、 询 资产 、 年 龄 为 定量 变量 ; 名 字 、 资 产 来 源 及 国籍 为 定性 变量 ， 我 们 
暂时 关心 资产 和 年 龄 这 两 个 变量 .我 们 可 以 用 直方 图 来 表示 这 两 个 变量 的 


1 网 址 为 http://www .forbes.com /billionaires/list./. 
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数据 使 人 们 能 够 看 出 这 些 数目 的 大 体 分 布 或 “< 形状". 图 3.1 就 是 利用 这 个 数 
据 (Billianaires.txt) 由 RR 软件 所 画 的 关于 这 些 富 人 的 年 龄 和 财富 的 两 个 直方 图 . 这 
两 个 直方 图 是 用 下 面 R 语 句 画 出 的 (第 一 行 读 入 数据 ): 
v=read.table("Billianaires.txt",sep=",",header=T,na.strings="-") 
par (mfrow=c(1,2))  # 准 备 画 了 两 个 并 排 的 图 ,c(1,2) 表 示 一 行 两 列 
hist(v$Age,main="",xlab="Age") 
hist(v$Net .Worth ,main=nn ,xlab="Net Worth") 
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图 3.1 数据 Billianaires.txt 的 富豪 的 年 龄 ( 左 ) 和 净 资 产 ( 右 ) 的 直方 图 . 


图 3.1 堪 图 的 横 坐 标 是 年 龄 区 间 , 这 里 每 一 格 代表 10 岁 范围 (格子 宽度 因 不 同 
的 数据 性 质 或 要 求 而 定 , 这 里 的 格子 宽度 为 10 岁 ), 而 纵 坐 标 为 各 种 年 龄 区 间 的 
人 数 ( 频 数 ). 在 10 岁 以 下 的 富豪 只 有 3 个 , 没有 10 至 20 岁 的 富豪 . 一 些 富豪 的 年 龄 
未 知 , 因此 该 直方 图 没有 反映 . 右边 的 关于 净 资 产 的 直方 图 ( 横 坐 标 每 一 格 范围 
为 10 亿 美元 ) 就 不 像 年 龄 那样 对 称 了 , 大 部 分 人 的 财富 都 在 50 亿 以 下 (一 于 多 个 , 左 
边 最 高 的 一 个 矩形 条 )， 显 然 从 直方 图 可 以 看 出 数据 分 布 的 疏 密 . 显然 , 把 横 轴 划 
分 为 在 干 区 间 有 很 多 选择 . 比如 , 区 间 较 少时 , 则 图 形 只 有 几 个 和 矩形, 而 当 区 间 很 
多 时 (但 相应 于 数据 量 还 算 小 时 ), 则 可 能 会 有 参差 不 齐 的 许多 矩形. 确定 区 间 划 分 
的 各 种 方法 超出 了 本 书 范围 . 不 过 , 各 种 软件 都 有 一 个 计算 区 间 的 缺 省 公式 . 如果 
没有 把 握 , 就 按照 软件 的 默认 方法 划分 就 行 了 . 


2， 合 型 图 


比 直 方 图 简单 一 些 的 是 盒 形 图 (boxplot)， 又 称 箱 图 、 箱 线 图 、 盒 子 图 . 
图 3.2 为 用 Billianaires.txt 数 据 所 绘 在 中 、 日 、 美 三 个 国家 的 富 人 年 龄 的 盒 形 图 . 
该 盒 形 图 是 用 下 面 及 语句 画 的 : 


w=v[v[,6]=="United States"|v[,6]=="China"|v[,6]=="Japan",] 
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V[L,6]=as.character(CwL ,6] ) 
boxplot (Age“Country .of .Citizenship,w) 
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图 3.2 中、 日 、 美 三 国富 豪 的 年 龄 的 盒 形 图 . 


每 个 盒子 的 中 间 的 粗 横 线 是 数据 的 中 位 数 (median), 它 是 下 节 要 引进 的 量 之 一 . 
顾名思义 , 中 位 数 是 数据 中 占据 中 间 位 置 的 数 , 即 数据 中 约 有 一 半 大 于 中 位 数 ( 在 
其 之 上 ), 另 约 一 半 小 于 中 位 数 ( 在 其 之 下 ). 在 把 数目 按照 大 小 顺序 排列 之 后 , 如 果 
数据 量 为 奇数 , 那么 中 间 的 那个 就 叫做 样本 中 位 数 , 如 果 数 据 量 为 偶数 , 则 中 间 两 
个 数目 的 算术 平均 定义 为 样本 中 位 数 . 封闭 盒子 的 上 下 两 边 ( 横 线 ) 为 上 下 四 分 位 
数 (点 )( 也 是 下 节 要 引进 的 量 ), 其 意义 为 : 数据 中 约 有 四 分 之 一 的 数目 大 于 上 四 分 
位 数 , 即 在 盒子 之 上 , 另外 有 约 四 分 之 一 的 数目 小 于 下 四 分 位 数 , 即 在 盒子 之 下 . 
因此 有 一 半 的 数目 在 中 间 封 闭 盒子 的 范围 内 . 有 一 半分 布 在 盒子 上 下 两 边 . 在 盒 
子 上 下 两 边 分 别 各 有 一 条 纵向 的 线段 , 表明 盒子 外 面 点 的 分 布 , 在 该 线段 的 两 个 端 
点 , 各 有 一 条 小 横 线 , 标 出 了 最 大 或 最 小 值 . 盒 形 图 可 以 有 不 同 的 画 法 , 这 里 是 其 
中 一 种 . 有 时 , 把 离开 盒子 较 远 的 后 单独 标 出 . 此 外 盒 形 图 可 以 横 过 来 画 , 这 都 由 
画图 语句 的 选项 控制 . 老 干 个 盒 形 图 往往 放 在 一 个 图 中 比较 .从 该 图 可 以 看 出 中 
国语 人 整体 上 年 龄 较 轻 . 


3， 茎 叶 图 


在 上 面 介 绍 的 直方 图 和 使 形 图 中 , 已 经 看 不 到 数值 了 , 因此 很 难 从 图 形 恢复 数 
据 的 原貌 ， 下 面 引 进 另 一 种 图 : 茎 时 图 (stem-and-leaf plots). 以 例 3.1 数 据 中 
的 中 国富 人 的 年 龄 为 例 , 下 面 的 茎 叶 图 是 用 语句 
stem(vlv[,6]=="China",4]) 


给 出. 它 既 展示 了 年 龄 的 分 布 形状 又 有 原始 数据 . 它 象 一 片 带 有 茎 的 叶子 . 茎 为 较 
大 位 数 的 数字 , 叶 为 较 小 位 数 的 数字 . 可 以 看 出 , 该 图 是 用 代码 打印 出 来 的 若干 行 
数目 字 , 所 以 不 像 真 正 意义 上 的 图 形 . R 软 件 打 印 出 来 的 第 一 行 是 说 明 , 指出 小 数 
氮 相 应 于 茶叶 界限 “1? 的 位 置 . 对 于 这 个 图 , 小 数 点 位 于 符号 “|” 往 右边 一 个 数字 . 
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lhe decimal point is 1 digit(s) to the right of the | 


0 

899 

0001123344 
5555566666777788888888888889999999 
00111223344 

5556677777788999 

0000012233 

55667789 

| 01 


这 个 茎 上 叶 图 中 葵 的 单位 为 10 岁 , 而 叶子 单位 为 1 岁 . 在 第 一 行 指 出 了 一 个 年 龄 30 岁 
的 ,而 第 二 行 茎 为 30, 因此 叶子 中 的 三 个 数字 899 代 表 三 个 年 龄 38、39、39 岁 . 最 
后 一 行 展 示 的 两 个 年 龄 为 70 和 71 岁 . 显然 , 葵 叶 图 既 表 示 了 原始 数据 , 也 有 直方 图 
显示 数据 分 布 的 特点 ， 这 有 方便 的 地 方 . 但 是 茎 叶 图 有 其 弱点 , 即 当 数 据 量 很 大 
时 (成 于 上 万 个 度量 ), 茎 叶 图 就 无 法 显示 了 . 这 也 是 这 里 只 用 了 中 国富 人 的 数据 . 
而 没有 把 所 有 排行 榜 的 富 人 年 龄 都 画 入 的 原因 . 另外 , 也 可 以 把 几 个 茎 时 图 画 在 
一 起 进行 对 比 ， 比 如 , 两 个 说 明 不 同 总 体 同样 变量 的 数据 可 以 共用 一 个 茎 ,“ 背 靠 
背地 展示 叶子 , 用 来 形象 地 进行 比较 . 茎 叶 图 并 不 漂亮 , 外 行 不 一 定 能 够 马上 理 
解 , 因此 在 媒介 中 很 少 出 现 . 茎 叶 图 显然 是 前 计算 机 或 早期 计算 机 时 代 的 产物 . 


4. 散 点 图 


前 面 的 每 张 图 没有 显示 数量 变量 之 间 的 关系 , 如 果 需 要 , 则 可 以 用 散 点 
图 (scatter plot) 来 描述 两 个 (甚至 多 个 ) 数 量变 量 的 关系 . 对 于 两 个 变量 来 说 , 在 
图 中 , 每 一 个 点 代表 一 个 观测 值 , 而 它 的 横 坐 标 和 纵 坐 标 则 分 别 代 表 其 相应 于 两 个 
变量 的 取 值 . 也 可 以 把 若干 个 变量 都 用 纵 坐 标 表示 . 


例 3.2 (数据 : global2000.txt，g1100.txt) 该 数据 为 福布斯 (Forbes) 公 
司 根据 2012 年 4 月 之 前 的 资料 发 布 的 世界 上 最 大 的 2000 个 公司 的 排行 榜 !. 其 中 
数据 global2000.txt 为 全 部 名 单 ， 而 g100.txt 为 其 前 100 名 ， 变 量 包括 公司 的 名 
座 (Rank, 整数 , 越 小 名 次 越 靠 前 )、 公 司 名 称 (Company)、 所 在 国家 (Country)、 
销售 额 (Sales, 单位 10 亿 美元 )、 利 润 (Profit, 单位 10 亿 美元 )、 资 产 (Assets, 单 
位 10 亿 美元 )、 市 场 价值 (Market.Value, 单位 10 亿 美元 ). 

图 3.3 为 福布斯 前 100 名 公司 的 资产 (Assets, 横 坐 标 ), 销售 额 (Sales,， 纵 坐 标 ) 和 
取 对 数 之 后 的 利润 (log Profits, 体现 在 符号 的 大 小 ) 的 散 点 图 . 该 图 还 标 出 了 销售 
额 最 大 的 6 个 公司 (Royal Dutch Shell, Wal-Mart Stores, Exxon Mobil, Sinopec- 
China Petroleum, BP, PetroChina) 以 及 资产 最 多 的 公司 (Deutsche Bank). 


绘制 图 3.3 的 及 代码 为 (其 中 identify() 为 互动 式 的 手工 选择 函数 )， 


“该 数据 网 址 为 http: //Wwww.forbes.com /global2000/list/.- 


中 NN 


-~ 
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Global 100 Companys' Assets, Sales and log Profits(size of points) 
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图 3.3 展示 福布斯 前 100 名 公司 的 资产 、 销 售 额 和 利润 (对 数 ) 的 散 点 图 . 


v=read.table("g1l00.txt",sep=",",header=T) 

plot(v$Assets, v$Sales,pch=1,col=1,xlab='Assets (Billion $)", 

ylab="Sales (Billion $)",ylim=c(0,600) ,xlim=c(-100,3000) ,cex=log(v$Profits)) 
title("Global 100 Companys’ Assets, Sales and log Profits(size of points) ") 
identify(v$Assets, v$Sales,labels=v$Company) 


3.1.2” 定性 变量 的 图 表示 : 饼 图 和 条 形 图 


定性 变量 (或 属性 变量 , 分 类 变量 ) 不 能 点 出 直方 图 、 散 点 图 或 茎 叶 图 , 但 可 以 
用 冬 来 描绘 出 它们 各 类 的 数目 或 者 其 他 数量 特征 的 比例 . 还 是 用 例 3.2 来 说 明 . 
1. 饼 图 

饼 图 (pie chart) 为 一 个 由 许多 扇形 组 成 的 圆 , 各 个 扇形 的 大 小 比例 等 于 变量 
各 个 水 平 (类 ) 的 频数 或 者 是 相关 数量 变量 的 比例 . 饼 图 比 条 形 图 简单 , 描述 比例 较 
直观 . 但 是 当 变 量 太 多 时 饼 图 就 不 那么 好 看 了 . 图 3.4 表 示 包 含 大 公司 最 多 的 国家 
中 的 前 10 名 的 公司 数目 的 饼 图 . 该 图 的 代码 (包括 读 入 数据 ) 如 下 : 
w=read.table("global2000.txt",sep=",'",header=T) 
ws=sort (table(w$Country) ,de=T) ;pie(ws [1:10]) 
title("Number of Companies Among top 10") 


2. 条 形 图 


从 图 3.4 的 饼 图 中 仅仅 看 出 了 各 个 国家 拥有 的 大 公司 的 比例 , 而 看 不 出 具体 数 
日 ,为 这 个 目的 , 条 形 图 (bar plot) 就 更 适当 了 . 图 3.5 为 用 图 3.4 同 样 数据 所 绘 的 
条 形 图 . 该 图 的 代码 如 下 : 


barplot (ws[1:10] ,cex.names =.8,main="Number of Companies Among top 10") 
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图 3.4 包含 公司 最 多 的 国家 中 的 前 10 名 的 公司 数目 的 饼 图 
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3.5 ”包含 公司 最 多 的 国家 中 的 前 10 名 的 公司 数目 的 条 形 图 . 


3.1.3 ”其 他 图 描述 法 


除了 上 面 说 的 各 种 用 来 描述 数据 的 图 之 外 , 还 可 采用 其 他 各 种 图 形 . 下 面 介 
绍 其 中 几 种 ， 


1. Chernoff 面孔 图 和 星 


有 一 种 很 独特 的 Chernoff 面孔 图 (Chernoff Faces), 它 把 矩阵 形式 的 数据 
用 面孔 形式 表现 出 来 . 不 同 的 面孔 体现 数据 各 个 变量 的 不 同 特征 .当然 , 你 必须 
熟悉 这 些 面孔 的 各 种 器 官 和 表情 代表 数据 的 什么 特征 才 行 . 各 个 变量 相应 的 器 官 
度量 包括 面孔 长 度 、 面 孔 宽 度 、 面 孔 形 状 、 嘴 的 上 下 高 度 、 嘴 的 宽度 , 笑容 的 曲 
线 、 眼 睛 的 睁 开 程度 、 腿 上 栈 的 宽度 、 头 发 的 厚度 、 头 发 的 宽度 、 瞄 子 的 长 度 、 引 
子 的 宽度 、 耳 兴 的 宽度 、 耳 水 的 长 度 等 . 各 种 变量 的 组 合 就 形成 面孔 的 不 同 表 情 . 
另 一 种 图 为 星 图 (star plot), 也 称 煌 蛛 或 雷达 图 (spider/radar plot), 它 把 各 
个 变量 按照 大 小 向 各 个 方 问 做 射线 段 ,形成 星辰 形状 . 这 个 图 比 面 孔 图 容易 理解 ， 
但 比较 死板 . 

图 3.6 和 图 3.7 为 用 销售 额 、 利 润 、 资 产 及 市 场 价值 4 个 变量 来 描述 世界 
前 10 位 的 大 公司 的 Chernoff 面 也 图 (图 3.6) 和 星 图 (图 3.7)， 这 两 个 图 利用 了 程序 
包 TeachingDemos!, 是 用 下 面 语句 得 到 的 : 


v=read.table("g100.txt",sep=",",header=T) 
library(TeachingDemos);; 

q=v[1:10,4:7] ;row.names(q)=v [1:10,2] 
faces(q,nrow=2,ncol=5) ;stars(q,nrow=2,ncol=5) 


ExxonMobil JpMorganChase GeneralEiectric RoyalDutch Shell 


图 3.6 世界 前 10 位 的 大 公司 的 Chernof 面 孔 图 . 


lGreg Snow (2012). TeachingDemos: Demonstrations for teaching and learning. 及 package 
version 2.8. http://CRAN.R-project.org/package=TeachingDemos. 
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rolen Brasil 


图 3.7 世界 前 10 位 的 大 公司 的 星 图 . 


2. Lorenz 曲 线 


Lorenz 曲 线 和 Gini 系 数 不 属 于 本 书 范围 , 但 有 些 经 济 背 景 的 读者 应 该 了 解 
这 一 对 概念 . Lorenz 曲 线 的 横 坐 标 为 从 最 低 收入 到 最 高 收入 的 人 口 的 累积 
比例 (从 0% 到 100%),， 其 纵横 坐标 为 人 们 挣 得 的 收入 从 最 低 到 最 高 的 累积 份 
锁 ( 从 0% 到 100%). 如 果 人 们 收入 全 一 样 , 那么 Lorenz 曲 线 应 该 是 45 度 直线 : 如 
宁 是 同 下 上 的 曲线 , 那么 该 曲线 和 45 度 对 角 线 线 之 间 的 面积 越 大 ,， 则 说 明 越 不 
平等 ， Gini 系 数 为 该 面积 和 整个 三 角形 面积 之 比 . 例 3.1 数 据 的 1223 个 富 人 共 
有 45660.3 亿 资产 .但 就 这 些 资产 而 言 , 他 们 之 间 的 差距 如 何 呢 ? 我 们 可 以 末 
出 Lorenz 曲 线 , 计算 出 该 数据 的 Gini 系 数 为 0.4877021.， 这 说 明 富 人 世界 中 也 
是 “ 贫 富 不 均 "” 了 ， 当然 , 真正 的 Lorenz 曲 线 应 该 用 一 个 国家 或 一 个 地 区 的 所 有 
人 的 收入 来 计算 . 这 里 仅仅 是 借用 富 人 的 资产 数据 来 介绍 Lorenz 曲 线 . 该 曲线 在 
图 3.8 之 中 . 绘图 利用 了 程序 包 ineq!, 代码 为 : 


v=read.table("Billianaires.txt",sep=",",header=T,na.strings="—") 
library(ineq); plot(Lc(v{,3]),col=’red’);Gini(v[,3]) 


思考 一 下 : 
1. 用 什么 图 形 来 描述 各 个 月 度 的 GDP 和 物价 CPI 之 间 的 关系 ? 
2. 用 什么 图 形 来 描述 不 同 教育 程度 的 人 口 的 比例 (假定 分 小 学 、 中 学 、 大 学 、 研 


究 生 以 上 )? 
3. 用 什么 图 形 来 描述 一 个 年 级 身高 的 度量 ? 





1Achim Zeileis (2012). inegq: Measuring Inequality, Concentration, and Poverty. R package 
version 0.2-10. http://CRAN.R-project.org/package=inedq. 
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图 3.8 例 3.1 数 据 按照 资产 的 Lorenz 曲 线 . 


3.2 如何 用 少量 数字 来 概括 数据 ? 


用 少数 几 个 数字 概括 大 量 数字 是 日 常生 活 中 常见 的 . 比如 说 , 北京 人 的 平均 收 
入 是 多 少 、 两 地 区 的 收入 差距 是 多 少 、 高 收入 的 人 占 人 口 的 百分比 等 ， 这些“ 平 
均 ”“ 差 距 ” 或 百分比 都 是 用 来 概括 或 汇总 的 数字 . 由 于 定性 变量 主要 是 计数 , 比 
较 简 单 , 其 常用 的 概括 就 是 比例 或 百分比 , 所 以 下 面 主要 介绍 关于 定量 变量 的 数字 

除了 图 表 之 外 ， 可 以 用 少量 所 谓 汇 总 统计 量 或 概括 统计 量 (summaary 
statistic) 来 描述 定量 变量 的 数据 ， 这 些 数字 是 从 样本 得 来 的 , 因而 也 是 样本 
的 函数 , 任何 样本 的 函数 , 只 要 不 包含 总 体 的 未 知 参数 ， 都 称 为 统计 量 (statistic). 
样本 本 喘 是 随机 的 , 从 同一 个 总 体 抽 出 来 的 不 同样 本 肯定 不 一 样 . 因此 , 对 于 不 同 
数据 ( 即 样本 的 实现 ), 统计 量 的 取 值 也 不 一 样 , 也 就 是 说 样本 的 随机 性 决定 了 统计 
量 的 随机 性 . 

在 许多 情况 , 从 样本 产生 的 一 些 统计 量 的 实现 值 反映 了 无 法 观测 到 的 某 些 总 
体 参 数 的 大 小 , 这 时 统计 量 就 可 以 用 来 作为 这 些 参数 的 估计 . 以 后 还 要 提 到 , 作为 
样本 某 种 代表 的 一 些 统计 量 还 可 以 用 来 检验 样本 和 假设 的 总 体 是 否 一 致 . 一 些 统 
计量 前 面 有 时 加 上 “样本 ”二 字 , 以 区 别 于 总 体 的 同名 参数 .比如 后 面 的 从 样本 产 
生 的 均值 和 标准 差 严格 说 来 应 该 叫做 “样本 均值 ?和 “样本 标准 差 ” 以 区 别 于 总 体 
的 均值 和 标准 差 . 但 在 不 会 混淆 时 可 以 只 说 “均值 "和 “标准 差 ". 一 些 总 体 参数 将 
在 下 一 章 介 绍 . 
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3.2.1 数据 的 “位 置 ” 


人 们 第 说 哪个 地 方 穷 , 哪个 地 方 富 . 也 常 说 , 哪个 国家 人 高 , 哪个 国家 人 矮 . 说 
这 些 话 的 人 绝对 不 是 说 一 个 地 方 的 所 有 人 都 比 另 一 地 方 的 所 有 人 富 , 也 不 是 说 ， 
一 个 国家 的 人 都 比 另 一 个 国家 的 所 有 人 都 高 . 他 们 仅仅 省 略 了 “平均 起 来 "， “大 
部 分 ”等 词语 . 这 些 说 法 实际 上 是 关于 数据 中 某 变量 观测 值 的 “中 心 位 置 ”或 者 数 
据 分 布 的 中 心 (center 或 center tendency) 的 某 种 表述 . 这 种 与 “位 置 " 有 关 的 统计 
量 就 称 为 位 置 统 计量 (location statistic). 位 置 统 计量 当然 不 一 定 都 是 描述 “中 
心 " 了 , 比如 后 面 要 讲 的 上 日 分 位 数 . 

最 常用 的 位 置 统 计量 就 是 小 学 时 所 学 到 的 算术 平均 值 , 它 在 统计 中 叫做 均 
值 (mean), 严格 地 说 叫做 样本 均值 (sample mean), 以 区 别 于 下 一 章 要 介绍 的 
总 体 均 值 . 样本 均值 是 把 一 个 变量 的 所 有 观测 值 求 和 再 除 以 观测 值 的 数目 ， 如 果 
记 样 本 中 的 观测 值 为 x1,.…, zx, 则 样本 均值 定义 为 

1 Xl 十 … 十 Tn 
Ti 二 一 -一 一. 
n 7 


比如 , 可 以 用 上 面 公 式 得 到 例 3.1 中 富 共 的 平均 年 龄 . 由 于 只 有 1191 个 富豪 的 年 龄 
己 知 , 所 以 = 1191. 利用 及 代码 mean(v$Age ,na.rm=T) 可 得 均值 为 62.4 岁 . 公式 
中 的 选项 na .rm=T 表 示 去 掉 缺 失 值 ( 即 不 知道 的 年 龄 ) 再 求 平均 ， 

虽然 均值 包含 了 样本 的 很 多 信息 , 但 它 容易 被 少数 极端 值 所 影响 . 比如 , 一 
个 数据 输入 员 的 朴 忽 很 可 能 造成 某 些 数目 出 错 , 比如 多 敲 入 若干 0, 这 时 均值 就 
可 能 变 成 很 大 . 但 这 种 数据 错误 不 会 对 该 数据 按 升 匣 或 降 罕 排 列 的 中 间 一 些 数目 
影响 太 大 . 数据 中 间 的 一 个 (或 两 个 数 的 平均 ) 就 是 (样本 ) 中 位 数 (median). 它 是 
数据 按照 大 小 排列 之 后 位 于 中 间 的 那个 数 ( 如 果 样 本 量 为 奇数 ), 或 者 中 间 两 个 数 
目的 平均 (如 果 样 本 量 为 偶数 ). 利用 及 代码 median(v$Age ,na.rm=T) 可 得 例 3.1 富 
豪 年 龄 的 中 位 数 是 62 岁 . 由 于 中 位 数 不 易 被 极端 值 影响 , 所 以 称 中 位 数 比 均 值 稳 
健 (robust). 比如 一 干 个 月 收入 为 2000 元 的 人 和 月 收入 为 一 千 万 元 的 一 个 富翁 住 
在 同一 个 区 域 , 则 该 区 域 人 们 的 “平均 ”月 收入 用 均值 计算 为 11988.01 元 , 而 用 中 位 
数 计 算 为 2000 元 , 相差 将 近 6 售 . 

描述 数据 “中 心 位 置 ?的 均值 、 中 位 数 各 有 优 缺 点 . 但 也 有 一 定 的 规律 . 对 于 
具有 对 称 单 峰 分 布 (“ 对 称 ” 相 应 于 对 称 直 方 图 所 反映 的 形状 , 所 谓 “ 单 峰 ? 是 分 布 中 
只 有 一 个 体现 局 部 极 大 值 那样 的 “ 峰 ”), 这 两 个 度量 应 该 大 体 上 差不多 . 而 如 果 单 
峰 的 分 布 形状 在 右边 拖 尾 ( 即 直 方 图 在 右边 有 长 尾巴 ), 那么 一 般 说 来 , 中 位 数 小 于 
均值 . 反 过 来 , 如 果 直 方 图 在 左边 拖 尾 , 则 一 般 均 值 小 于 中 位 数 . 也 就 是 说 , 和 中 位 
数 相 比 , 均值 一 般 总 是 在 长 尾巴 那 边 . 

中 位 数 在 数据 大 小 顺序 中 居中 .而 前 面 提 到 的 上 下 四 分 位 数 (或 分 别称 为 
第 一 四 分 位 数 和 第 三 四 分 位 数 ，first quantile，third quantile) 则 分 别 位 
于 ( 按 大 小 排列 的 ) 数 据 的 上 下 四 分 之 一 的 地 方 . 一 般 地 还 称 上 四 分 位 数 为 75 百 分 
位 数 (75 Percentile， 有 约 75 宛 的 观测 值 小 于 它 ), 下 四 分 位 数 为 25 百 分 位 数 ( 有 
约 25% 的 观测 值 小 于 它 )， 有 了 25 百 分 位 数 和 75 百 分 位 数 的 概念 人 们 就 不 难 理 
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解 什 么 是 任意 的 k 百 分 位 数 (k-percentile) 了 (有 和 约 k&% 的 观测 值 小 于 它 )， 如 果 
令 a 二 有 k%, 则 k 百 分 位 数 也 称 为 a 分 位 数 (a-quantile)， 显然 中 位 数 是 50 百 分 位 
数 或 0.5 分 位 数 ， 根据 例 3.1 数 据 , 富 人 的 两 个 四 分 位 点 分 别 为 52 和 72 岁 , 可 用 语 
Hquantile(v$Age, .25, na.rm=T) 和 quantile(v$Age,.75，na.rm=T) 计 算 . 

除了 中 位 数 和 均值 之 外 , 还 有 样本 中 出 现 最 多 的 某 一 数目 , 称 为 众 数 (mode). 
例 3.1 富 罕 榜 数据 中 富豪 年 龄 的 众 数 为 60 岁 , 一 共有 41 位 这 个 年 龄 的 人 (用 代 
码 z=table(v$Age) ;z [which(z==max(z))] 得 到 ). 注意 ,如 果 年 龄 精确 到 分 钟 
甚至 秒 , 则 不 大 可 能 会 有 众 数 . 众 数 反映 的 信息 也 不 多 , 又 不 一 定 唯一 , 在 连续 变 
量 的 情况 , 如 果 不 做 过 分 四 人 铭 五 入 , 可 能 没有 重复 的 数据 ， 这 时 也 不 可 能 有 众 数 
众 数 用 得 不 如 均值 和 中 位 数 普 裔 . 在 定性 变量 中 , 由 于 记录 的 是 频数 , 因此 众 数 用 
得 多 些 . 比如 在 图 3.5 关 于 10 个 国家 拥有 大 公司 的 数目 的 条 形 图 中 , 众 数 就 是 由 美 
国 所 代表 , 它 一 共 拥 有 524 家 大 公司 . 


3.2.2 ”数据 的 “尺度 


论语 有 一 句 话 :“ 不 患 寡 而 患 不 均 ”. 这 是 指 不 怕 财 富 少 , 而 怕 分 配 不 公平 而 造 
成 贫 宇 差距 太 大 . 贫 宇 、 多 寡 是 由 位 置 统 计量 来 描述 的 , 而 是 否 “ 均 "是 由 尺度 统 
计量 (scale statistic) 来 描述 的 . 尺度 统计 量 是 描述 数据 散布 , 即 描述 集中 与 分 
散 程 度 或 变化 (spread 或 variability) 的 度量 , 因此 , 有 人 不 无 道理 地 建议 用 “ 散 度 统 
计量 ”这 个 名 词 . 统计 中 有 许多 尺度 统计 量 . 一 般 来 说 , 数据 越 分 散 , 尺度 统计 量 的 
值 越 大 . 为 了 说 明 , 回顾 图 3.2, 那 是 中 国 、 日 本 和 美国 富豪 的 年 龄 的 傅 形 图 , 可 以 
看 出 , 从 中 位 数 来 说 , 日 本 年 龄 较 大 , 美国 次 之 , 中 国 最 小 , 分 别 为 69, 66 和 49. 而 
均值 分 别 为 69.1, 65.5 和 52. 但 是 这 三 个 数据 散布 范围 和 模式 很 不 一 样 . 

最 简单 的 尺度 统计 量 就 是 极 差 (range), 顾名思义 , 极 差 就 是 极 大 值 和 极 小 值 
之 间 的 差 . 例 3.1 数 据 的 中 日 美 三 国 宦 罕 年 龄 的 极 差分 别 为 41, 52, 和 69 岁 . 图 3.2 中 
每 个 盒 形 图 盒子 的 长 度 为 上 下 两 个 四 分 位 数 之 差 , 称 为 四 分 位 数 极 差 或 四 分 位 间 
距 (interquantile range), 它 描 述 了 中 间 半 数 观测 值 的 散布 情况 . 极 差 和 四 分 
位 极 差 实际 上 各 自 只 依赖 于 两 个 值 , 信息 量 太 少 . 例 3.1 的 中 日 美 三 国富 豪 年 龄 的 
四 分 位 极 差 分 别 为 11.5, 16.5 和 19. 

男 一 个 常用 的 尺度 统计 量 为 (样本 ) 标 准 差 (standard deviation). 
样本 中 各 个 数值 到 均值 的 距离 的 一 种 平均 . NM 
方 根 . 样本 方差 是 由 各 观测 值 到 均值 距离 的 平方 和 除 以 减 去 1 的 样本 量 . 也 就 是 说 ， 
如 果 记 样本 中 的 观测 值 为 zi, … zn, 则 样本 方差 为 
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而 样本 标准 产 为 桩 本 方差 的 平方 根 : 
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标准 差 由 于 和 有 原 数 据 量 纲 一 样 , 因此 在 数据 分 析 中 比方 差 用 得 更 普遍 . 

显然 , 如 果 标 准 差 越 大 , 数据 中 的 观测 值 就 越 分 散 , 而 小 的 标准 差 意 味 着 数据 
很 集中 . 下 一 章 会 介绍 总 体 标准 差 和 总 体 方差 的 概念 . 关于 中 日 美 三 国富 豪 的 标 
准 差分 别 是 8.4, 15.1 和 13.0. 

在 直方 图 中 只 有 一 个 最 高 点 的 数据 被 称 为 单 峰 的 , 如 果 还 左右 对 称 , 则 是 单 峰 
对 称 数据 . 服从 (下 一 章 要 介绍 的 ) 正 态 分 布 的 数据 就 是 单 峰 对 称 的 ， 对 于 正 态 分 
布 的 数据 , 均值 左右 一 个 标准 差 的 范围 应 该 会 包含 大 约 68 多 的 观测 值 , 而 均值 左右 
两 个 标准 差 的 范围 应 该 会 包含 大 约 95% 的 观测 值 ， 均值 左右 三 个 标准 差 的 范围 应 
该 会 包含 大 约 99.7% 的 观测 值 (也 就 是 绝 大 部 分 观测 值 ). 一 些 人 把 这 种 粗略 的 准则 
推广 到 一 般 单 峰 对 称 数 据 上 , 这 时 这 种 经 验 法 则 必然 会 和 实际 情况 有 出 入 , 而 相差 
多 少 则 依赖 于 具体 数据 的 性 质 . 

即使 出 于 同一 个 总 体 , 样本 量 相同 的 不 同样 本 也 会 有 不 同 的 均值 , 这 种 来 自 
许多 不 同样 本 的 均值 的 标准 差 称 为 标准 误差 (standard error), 也 叫做 均值 的 
标准 误差 (standard error of mean). 样本 均值 的 各 种 性 质 包 括 大 样本 分 布 性 
质 可 参看 第 四 章 的 抽样 分 布 和 中 心 极 限定 理 部 分 . 由 于 不 同样 本 所 产生 的 均值 比 
一 个 样本 中 的 观测 值 要 稳定 得 多 , 它 的 标准 差 比 针 对 整个 数据 的 标准 差 要 小 得 多 . 
标准 误差 定义 为 标准 差 除 以 样本 量 的 平方 根 , 即 s/ Vn. 


3.2.3 数据 的 标准 得 分 


例 3.3 (数据 : grade.txt) 该 数据 给 出 两 个 班 (一 班 和 二 班 ) 的 同一 门 课 的 成 
绩 . 假定 两 个 班 水 平 类 似 , 但 是 由 于 两 个 任课 老师 的 评分 标准 不 同 , 使 得 两 个 班 
成 绩 的 均值 和 标准 差 都 不 一 样 . 一 班 分 数 的 均值 和 标准 差分 别 为 78.53 和 9.43, 而 
二 班 的 均值 和 标准 差分 别 为 70.19 和 7.00. 那么 得 到 90 分 的 一 班 的 张 颖 是 不 是 比 得 
到 82 分 的 二 班 的 刘 玻 成 绩 更 好 呢 ? 怎么 比较 才能 合理 呢 ? 

虽然 这 种 均值 和 标准 差 不 同 的 数据 不 能 够 直接 比较 , 但 是 可 以 把 它们 进行 标 
准 化 , 然后 骨 比 较 标 准 化 后 的 数据 . 一 个 标准 化 的 方法 是 把 某 样本 原始 观测 值 ( 亦 
称 得 分 ，score) 和 该 样本 均值 之 差 除 以 该 样本 的 标准 差 , 得 到 的 度量 称 为 标准 得 
分 (standard score, 又 称 为 z-score). 即 , 某 观 测 值 x; 的 标准 得 分 定义 为 
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把 各 个 样本 的 观测 值 都 转换 成 相应 的 标准 得 分 , 就 可 以 进行 比较 了 . 在 这 个 例 
子 中 , 张 颖 的 标准 得 分 为 (90 一 78.53)/9.43 = 1.22, 而 刘 朴 的 标准 得 分 为 (82 一 
70.19)/7 = 1.69. 显然 如 果 两 个 班级 水 平 差不多 , 刘 下 的 成 绩 应 该 优 于 张 颖 的 成 
绩 , 这 是 在 标准 化 之 前 的 数据 中 不 易 看 到 的 . 

图 3.9 展 示 了 这 两 个 班级 的 原始 成 绩 的 盒 形 图 (左边 ) 和 标准 化 之 后 成 绩 的 标准 
得 分 的 盒 形 图 (右边 ). 可 以 看 出 , 原始 数据 是 在 各 自 的 中 心 值 附 近 , 而 散布 也 不 一 
样 . 但 它们 的 标准 得 分 则 在 0 周围 散布 , 而 且 散 布 也 差不多 . 实际 上 , 任何 样本 经 
过 这 样 的 标准 化 后 , 就 都 变换 成 均值 为 0、 方 差 为 1 的 样本 . 标准 化 后 不 同样 本 观 


测 值 的 比较 只 有 相对 意义 , 没有 绝对 意义 . 
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3.9 例 3.3 数 据 两 个 班级 分 数 的 原始 数据 ( 左 ) 和 标准 得 分 ( 右 ) 的 盒 形 图 . 


绘 出 图 3.9 的 及 代码 为 


w=read.table("grade.txt",header=T) 

par (mfrow=c(1,2)) 

boxplot (grade “class, Ww,main="Qriginal Grades") 

boxplot (standardized“class, Ww,main="Standardized Grades") 


标准 化 之 后 的 数据 虽然 总 的 尺度 和 位 置 都 变 了 , 但 是 数据 内 部 点 的 相对 位 置 
没有 变化 . 比如 , 距离 均值 两 倍 标准 差 的 一 个 点 在 标准 化 后 距离 均值 还 是 两 倍 标 
准 差 . 这 从 图 3.9 也 可 以 看 出 : 每 个 数据 标准 化 前 和 标准 化 后 的 盒 形 图 (在 纵向 ) 相 
似 . 这 是 因为 标准 化 仅仅 是 把 盒 形 图 进行 纵向 放大 (或 缩小 ) 和 位 移 . 班级 1 的 两 个 
离 群 点 还 是 离 群 点 . 虽然 如 此 , 但 两 个 不 同 的 数据 在 标准 化 后 就 有 了 进行 比较 的 
基础 . 标准 得 分 的 思想 不 仅仅 用 于 比较 , 而 且 在 后 面 的 推断 中 也 有 其 用 处 . 另外 ， 
计算 标准 得 分 也 仅仅 是 许多 标准 化 方法 中 最 常见 的 一 种 . 

无 论 问题 是 什么 , 一 些 人 喜欢 把 各 种 数据 都 标准 化 之 后 再 进行 分 析 , 这 是 不 适 
当 的 . 把 例 3.3 数 据 标准 化 的 前 提 是 两 个 班级 是 相似 的 . 如 果 对 于 完全 不 同 背 景 的 
数据 进行 标准 化 , 就 会 失去 很 多 有 用 的 信息 . 比如 , 把 最 富有 的 国家 和 把 最 贫穷 的 
国家 的 收入 进行 标准 化 , 结果 的 标准 化 后 的 数据 有 同样 的 均值 0 及 同样 的 标准 差 1， 
结果 是 , 基本 上 看 不 出 哪个 数据 是 来 自 哪 个 国家 . 很 难说 这 样 的 标准 化 除了 误导 
之 外 还 有 什么 意义 . 

当然 , 在 应 用 一 些 统计 方法 时 , 有 时 的 确 需 要 对 数据 做 标准 化 或 其 他 变换 , 但 
这 些 并 不 是 随意 的 , 都 有 茶 些 确定 的 理论 基础 和 实际 目的 . 
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思考 一 下 : 
1. 前 
它 


面 描述 位 置 统 计量 上 下 四 分 位 点 时 ， 说 “ 约 75% 的 观测 值 小 于 
“和 “ 约 25% 的 观测 值 小 于 它 ”, 为 什么 要 说 “ 约 ” 呢 ? 不 能 精确 点 吗 ? 这 
古 因为 数据 点 的 个 数 是 离散 的 缘故 .为 了 理解 , 请 大 家 找 出 由 三 个 点 ( 比 
如 1、2、3) 组 成 的 数据 的 上 下 四 分 位 点 , 并 且 看 有 百 分 之 几 的 样本 点 小 于 下 四 
分 位 点 . 


-为 什么 说 中 位 数 比 均值 稳健 ? 有 一 种 截 尾 均值 ， 定 义 为 把 数据 的 最 大 
的 及 最 小 的 一 定 比 例 的 数目 去 掉 之 后 再 求 均 值 ， 这 可 以 用 及 实现 比 
如 mean(x,trim=0.1) 就 是 把 数据 x 的 最 高 和 最 低 两 个 尾巴 各 去 掉 10% 的 数据 
再 求 算术 平均 , 这 里 trim 取 值 从 0 到 0.5， 当 trim==0.5 时 , 就 得 到 中 位 数 ,请 解 
释 . 


. 为 什么 说 , 原则 上 连续 变量 的 数据 不 应 该 有 众 数 存在 , 但 实际 上 可 能 会 出 现 ? 
是 不 是 四 会 五 入 把 连续 变量 的 实现 值 的 记录 离散 化 了 ? 实现 值 在 记录 之 前 是 
否 应 该 有 众 数 ? 


. 一 个 样本 的 位 置 统 计量 和 尺度 统计 量 在 求 样本 点 的 标准 得 分 前 后 有 什么 变化 . 
一 个 班级 内 部 的 学 生 名 次 是 否 因 为 求 了 标准 得 分 之 后 会 改变 ? 





3.3 小结 


3.3.1 本 章 的 概括 和 公式 


本 章 涉 及 如 何 用 图 和 少量 数字 来 描述 数据 .对 于 定性 变量 来 说 , 有 人 饼 图 和 条 
形 图 , 而 对 于 定量 变量 , 有 直方 图 、 区 叶 图 、 盒 形 图 和 散 点 图 等 ,当然 这 些 图 仅仅 
包含 最 常用 的 那些 图 . 除了 图 表示 之 外 , 定量 变量 的 数据 还 可 以 用 少数 几 个 数 来 
挡 述 该 数据 的 位 置 (位 置 统 计量 ), 这 包括 描述 数据 “中 心 位 置 > 的 众 数 、 均 值 和 中 
位 数 , 以 及 描述 极端 值 及 其 他 位 置 的 百 分 位 数 ， 定性 变量 的 汇总 统计 量 包 括 百 分 
比 及 “ 众 数 ” (百分比 最 大 的 那 一 类 ). 另外 还 介绍 了 描述 定量 变量 尺度 , 即 数据 散 
布 (或 集中 ) 程 度 的 统计 量 , 它们 有 极 差 , 标准 差 , 方差 , 四 分 位 极 差 等 等 . 对 于 样本 
均值 的 标准 差 , 引进 了 标准 误差 . 为 了 比较 不 同 均值 和 不 同方 差 的 数据 点 , 本 章 还 
介绍 了 标准 化 的 方法 , 即 用 标准 得 分 代替 原先 的 数据 来 比较 . 
定义 和 公式 

“假定 某 样本 的 样本 量 (sample size, 即 样本 中 观测 值 的 个 数 ) 为 n, 样本 中 的 
观测 值 为 zi, ,Zn。 则 样本 均值 定义 为 
1 一 Tl] 十 -十 Tn 


假定 观测 值 按 照 目 小 到 大 的 升 容 排列 为 z0),.…, zx(n), 则 当 m 为 奇数 时 样本 中 


位 数 定义 为 ziaja， 而 当 n 为 偶数 时 样本 中 位 数 定义 为 [62) 十 zumjatD]/2. 
样本 方差 定义 为 


1 二 
2 2 , 
? -a1 7) n—1 


而 样本 标准 产 为 样本 方差 的 平方 根 : 





3.3.2 ”及 语句 的 说 明 
1. 做 图 形 
下 和 面 假定 x 是 数据 向 量 . 
.@ 直方 图 : hist (x) 
。 盒 形 图 : boxplot (x) 
e 蔡 叶 疼 : stem(x) 
。 散 点 图 : plot (x) 
e 人 饼 图 : pie(x) 
。 条 形 图 : barplot (x) 
2. 计算 汇总 统计 量 、 位 置 、 尺 度 、 标 准 得 分 等 
e 汇总 统计 量 : summary (x) 
e。 均值 : mean(x) 
e 中 位 数 : median(x) 


® 分 位 反 : quantile(x) 或 quantile(x,0.75) 等 
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e 极 差 : diff (range (x)) 

e。 四 分 位 极 差 : diff (quantile(x,c(.25,.75))) 
e。 标准 差 : sd(x) 

e 方差 : Var (x) 

。 标准 得 分 : scale (x) 


3.4 习题 


1. 根据 你 的 经 验 , 给 出 定性 和 定量 变量 的 例子 , 并 试图 画 出 各 种 描述 性 图 形 并 计 
算 汇总 统计 量 . 





3. 仆 度 统计 量 说 明了 数据 的 什么 特性 ”举例 说 明 . 


4. 标准 得 分 实际 上 是 对 原始 数据 的 一 种 标准 化 . 试 举 出 标准 得 分 的 用 处 . 何 时 不 
”能 做 标准 化 ? 
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第 四 草 ”机 会 的 度量 : 概率 和 分 布 


前 面 已 经 提 到 , 概率 是 0O 和 1 之 间 ( 包 含 0 和 1) 的 一 个 数目 , 表示 某 个 事件 发 生 的 
可 能 性 或 经 常 程 度 . 有 些 事情 发 生 的 概率 很 大 , 而 有 些 则 很 小 ， 比 如 , 你 乘 车 出 门 
可 能 遇 到 和 车祸 的 概率 很 小 (也 许 几 乎 是 0), 但 在 北京 一 天 中 发 生 一 起 以 上 的 车 祸 的 
概率 几乎 是 1. 你 今年 买房 子 的 概率 可 能 很 小 , 但 在 北京 每 天 有 人 买房 子 的 概率 却 
很 大 . 发 生 概 率 很 小 的 事件 称 为 小 概率 事件 (small probability event), 虽然 
小 概率 事件 不 那么 可 能 发 生 , 但 它 往往 比 很 可 能 发 生 的 事件 更 值得 研究 . 这 一 章 介 
绍 如 何 得 到 概率 、 如 何 进行 概率 计算 以 及 什么 是 概率 分 布 , 还 要 介绍 一 些 常用 的 
分 布 . 许多 读者 可 能 已 经 熟悉 这 一 章 的 许多 内 容 , 对 于 他 们 , 这 一 章 可 以 跳 过 . 由 
于 本 章 的 图 形 是 为 了 帮助 读者 理解 概念 而 绘制 的 , 画图 方法 本 身 与 这 些 概念 无 关 ， 
为 了 不 影响 内 容 的 连贯 性 , 我 们 把 生成 这 些 图 形 的 R 代 人 码 放 到 后 面 4.6.3 节 , 供 感 兴 
趣 的 读者 参考 . 


4.1 得 到 概率 的 几 种 途径 


利用 等 可 能 事件 


如 果 一 个 骨 子 是 公平 的 ', 那么 指 一 次 山 子 会 以 相等 可 能 得 到 1 至 6 点 中 的 每 一 
个 点 . 这 是 因为 共有 n = 6 种 可 能 , 而 每 一 种 的 概率 都 是 一 样 的 , 即 1/n = 1/6. 抛 
一 个 公平 的 硬币 (并 假定 不 可 能 得 到 侧面 ), 则 以 等 可 能 出 现 正面 或 反面 . 这 是 因 
为 只 有 n = 2 种 可 能 , 每 种 概率 都 是 1/n = 1/2. 再 如 从 52 张 牌 中 随机 抽取 一 张 ， 
那么 它 是 黑 桃 的 概率 是 抽取 黑 桃 的 可 能 种 类 (k = 13) 和 全 部 可 能 种 类 (n = 52) 的 
数目 之 比 , 即 Ejm = 13/52 = 1/4, 类 似 地 , 抽 到 的 牌 是 J、Q、 开 、A 四 种 之 一 ( 共 
有 16 种 可 能 ) 的 概率 是 16/52 = 4/13. 其 实 即使 没有 学 过 概率 , 读者 也 多 半 能 够 算 
出 这 些 概率 , 这 种 计算 的 原理 一 般 都 不 太 困 难 . 计算 这 些 概率 的 基础 就 是 事先 知 
道 ( 或 者 假设 ) 某 些 事件 是 等 可 能 的 . 这 种 事件 称 为 等 可 能 事件 (equally likely 


event ). 
根据 长 期 相对 频数 


在 多 数 情况 下 ,事件 并 不 一 定 是 等 可 能 的 , 或 者 人 们 对 于 其 出 现 的 可 能 性 
一 无 所 知 ， 这 时 就 要 靠 观 察 它 在 大 量 重 复试 验 中 出 现 的 频率 来 估计 它 出 现 的 概 
率 . 它 约 等 于 事件 出 现 的 频数 k 除 以 重复 试验 的 次 数 n, 这 个 比值 k/n 称 为 相对 频 
数 (relative frequency) 或 频率 .例如 , 在 估计 新 生 儿 中 男 婴 的 比例 时 ,如 果 
在 二 1000 个 新 生 儿 中 有 天 = 517 个 男 婴 , 那么 就 可 以 近似 地 说 , 生男 婴 的 概率 
为 k/n = 517/1000 = 0.517. 就 这 个 例子 来 说 , 人 们 可 能 会 认为 , 当 m 趋 于 无 穷 时 ， 

1 本 书 中 凡是 提 到 “公平 的 仙 子 ”， 或 “ 般 子 是 公平 的 "意味 着 该 盘子 是 用 均匀 材料 制 成 的 正六 面体 , 在 
其 六 面 上 分 别 标 有 一 至 六 点 , 在 它 被 搓 出 后 , 每 一 面 朝 上 的 机 会 是 均等 的 . 类 似 地 ,“ 公 平 的 硬币 ”, 也 意味 
着 该 硬币 被 掷 后 , 两 面 以 同样 机 会 朝 上 的 硬币 , 当然 , 公平 硬币 的 两 面 是 不 同 的 , 常 称 一 面 是 “正面 "(比如 国 
微 或 花卉 ), 而 另 一 面 为 “反面 (比如 面值 ). 而 一 个 灌 了 铅 或 水 银 的 从 子 或 两 面相 同 的 假 硬币 都 不 是 公平 的 . 
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这 个 相对 频率 趋 于 真正 生男 婴 的 概率 . 但 是 要 注意 的 是 , 不 可 能 观测 无 穷 多 次 出 
生 , 而 且 真 正 的 生男 婴 的 概率 也 可 能 随 环 境 而 变 . 在 商业 实践 中 一 个 类 似 的 例子 
是 , 假定 想 知 道 某 个 橱窗 设计 吸引 注意 力 的 概率 , 可 以 观察 有 多 少 过 往 的 人 在 它 面 
前 皖 留 观看 . 如 果 观 察 了 mn = 500 人 (500 次 试验 ), 有 k = 12 个 人 在 该 橱窗 前 逗留 ， 
那么 可 以 大 致 地 说 , 该 橱窗 吸引 行人 的 概率 近似 地 为 相对 频数 F/m = 12/500. 试 
验 次 数 m" 越 大 则 该 值 越 接近 于 想得到 的 概率 . 再 如 , 对 某 个 商品 投诉 的 概率 近似 地 
为 投诉 数目 (k) 除 以 售 出 的 该 种 商品 数 (n), 即 k/n. 这 里 每 卖 出 一 个 商品 为 一 次 试 
验 . 卖 出 的 商品 越 多 , 则 这 个 比例 越 接近 投诉 的 概率 . 

很 多 事件 无 法 进行 长 期 重复 试验 , 或 者 根本 不 可 能 重复 . 因此 这 种 通过 相对 频 
数 获得 概率 的 方法 并 不 是 万 能 的 . 虽然 如 此 , 用 相对 频数 来 确定 概率 的 方法 是 很 
常用 的 . 


主观 概率 


一 些 概 率 既 不 能 由 等 可 能 性 来 计算 , 也 不 可 能 从 试验 得 出 . 比如 , 你 明年 去 
九寨 沟 旅 游 的 概率 、 一 个 公司 的 董事 会 是 否 明天 要 讨论 某 个 问题 的 概率 等 都 无 
法 重复 . 但 根据 经 验 、 常 识 或 其 他 相关 因素 来 判断 , 你 可 能 会 说 出 一 个 概率 . 比 
如 你 明年 去 九寨 沟 的 概率 是 百 分 之 八 十 等 . 这 种 概率 称 为 主观 概率 (subjective 
probability). 可 以 说 , 主观 概率 是 一 次 事件 的 概率 . 也 可 以 说 , 主观 概率 就 是 基 
于 对 各 种 信息 的 掌握 , 某 人 对 某 事件 发 生 或 者 对 某 断 言 的 真实 性 的 自信 程度 
思考 一 下 - 

1. 在 实际 生活 中 , 等 可 能 性 事件 不 易 见 到 , 很 难 找到 各 种 条 件 完全 相同 的 实验 . 


例如 , 搓 般 子 、 抛 硬币 或 者 洗 牌 的 手法 不 同 , 很 可 能 会 造成 不 公平 的 结果 . 你 
对 此 如 何 看 ? 


2. 启 论 使 用 若干 相对 频率 确定 概率 的 优 缺 点 ， 你 可 以 在 气象 预报 、 科 学 实验 、 
战争 发 生 的 可 能 性 预测 等 各 种 方面 来 讨论 . 





4.2 ”概率 的 运算 


企 掷 仍 子 中 , 得 到 6 点 的 概率 是 1/6, 而 得 到 5 点 的 概率 也 是 1/6. 那么 扼 一 次 盟 
子 得 到 5 或 者 6 的 概率 是 多 少 昵 ? 在 掷 两 次 角 子 中 两 次 都 得 到 5 或 者 6 的 概率 又 是 多 
少 昵 ? 在 撕 10 次 角 子 中 有 一 半 或 以 上 的 次 数 得 到 5 或 6 的 概率 又 是 多 少 昵 ? 读者 略 
微 思考 一 下 就 可 能 很 快 会 得 到 答案 . 如 果 情 况 再 复杂 一 些 , 答案 也 许 就 不 是 那么 
简单 了 .这 就 需要 了 解 怎样 从 简单 的 情况 计算 稍微 复杂 情况 时 的 概率 . 这 里 需要 
读者 回忆 一 下 上 中 学 时 学 过 的 集合 概念 , 比如 两 个 集合 的 交 和 并 , 互 余 (互补 ) 等 概 
念 . 在 概率 论 中 所 说 的 事件 (event) 相 当 于 集合 论 中 的 集合 (set). 而 概率 则 是 事 
件 的 某 种 函数 . 为 什么 会 这 么 说 呢 , 让 我 们 看 毛 两 个 贷 子 的 试验 如果 所 关心 的 是 
两 个 骨 子 的 点 数 和 , 则 下 表 列 出 了 了 所 有 36 种 可 能 试验 结果 的 搭配 和 相应 的 点 数 
和 . 每 次 试验 结果 为 其 中 之 一 . 从 表 中 可 以 看 出 , 如 果 我 们 考虑 点 数 和 等 于 2 的 事 
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件 , 则 仅 有 一 种 可 能 的 试验 结果 (两 个 角 子 均 为 一 点 )， 而 如 果 我 们 考虑 点数 和 等 
于 7 的 事件 , 则 有 六 种 可 能 的 试验 结果 . 两 个 通 子 点 数 之 和 总 共有 2 至 12 等 11 种 可 
能 , 即 有 11 种 可 能 的 事件 , 而 这 11 种 事件 相应 于 上 面 所 说 的 36 种 可 能 的 试验 结果 
的 一 些 集合 . 

两 个 般 子 之 和 的 试验 










集合 中 元 素 的 个 数 





2 I 1/36 
3 (2,1) 2 2/36 
4 (2,2) 3 3/36 
5 (2,3) 4 4/36 
6 (2,4) 5 5/36 
7 (2,5) 6 6/36 
8 (3,5) 5 5/36 
9 (4,5) 4 4/36 
10 (5,5) 3 3/36 
11 (6,5) 2 2 /26 


hp 


| 一 


1/36 
注 : 试验 结果 插 号 中 的 两 个 数字 分 别 表示 第 一 和 第 二 个 角 子 的 反 数 . 


上 表 中 的 每 一 行 第 一 列 都 是 般 子 点 数 之 和 ( 即 事件 ) 的 一 种 (从 2 到 12); 而 每 行 
的 第 二 列 为 产生 这 个 和 (事件 ) 的 各 种 可 能 的 试验 结果 , 这 些 试验 结果 形成 一 些 集 
合 (每 行 一 个 集合 ); 每 行 的 第 三 列 为 该 行 集合 中 元 素 的 个 数 ; 每 行 最 后 一 列 为 得 到 
这 种 钠 子 和 的 概率 , 由 于 所 有 试验 结果 是 等 可 能 的 , 所 以 得 到 某 种 和 (事件 ) 的 概率 
等 于 该 集合 中 试验 结果 的 个 数 除 以 所 有 可 能 试验 结果 的 个 数 ， 这 样 , 我 们 就 把 事 
件 、 集 合 与 概率 联系 到 一 起 了 . 

下 面 介绍 一 些 概率 的 运算 . 


互补 事件 的 概率 


如 果 今 天 淋 雨 的 概率 是 80%, 那么 , 今天 不 淋 雨 的 概率 就 是 20%. 如果 这 个 月 
中 奖 的 概率 是 0.0001, 那么 这 个 月 不 中 奖 的 概率 就 是 1 一 0.0001 = 0.9999. 这 种 如 
果 一 个 不 出 现 ， 则 另 一 个 肯定 出 现 的 两 个 事件 称 为 互补 事件 (complementary 
events, 或 者 互 余 事 件 或 对 立 事件 ). 按照 集合 的 记号 , 如 果 一 个 事件 记 
为 4， 那么 另 一 个 记 为 4c( 称 为 4 的 余 集 或 补 集 ) 显然 互补 事件 的 概率 之 和 
为 1 即 P(4) + P(AC) = 1, 或 者 P(4C) = 1 一 P(A). 这 里 记号 P(4) 的 英 
文 含 义 为 probability of A. 在 西方 赌博 时 常常 爱 用 优势 或 赔 率 (odds) 来 形 
容 输赢 的 可 能 . 在 生物 统计 中 也 常用 优势 的 概念 . 它 是 互补 事件 概率 之 比 ， 
即 P(4)/P(45) = P(4)/[1 =- P(4)] 来 表示 的 .如果 你 赢 的 概率 为 0.6, 那么 你 
的 优势 为 0.6/(1 一 0.6) = 0.6/0.4 = 6/4， 说 成 是 你 有 6 对 4 的 优势 会 说 或 4 对 6 的 
优势 会 输 . 
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概率 的 加 法 


如 果 两 个 事件 不 可 能 同时 发 生 , 那么 至 少 其 中 之 一 发 生 的 概率 为 这 两 个 
事件 的 概率 和 . 比如 "“ 手 一 次 仍 子 得 到 5 或 者 6 点 ”的 概率 是 “得 到 5 点 ”的 概率 与 “得 
到 6 点 ”的 概率 之 和 , 即 1/6 十 1/6 = 1/3. 但 是 如 果 两 个 事件 可 能 同时 发 生 时 这 样 做 
隐 不 对 了 . 假定 掷 仍 子 时 , 一 个 事件 4 为 “得 到 偶数 点 "( 有 3 种 可 能 : 2、4、6 点 ), 另 
一 个 事件 B 为 “得 到 大 于 或 等 于 3 点 ”( 有 4 种 可 能 : 3、4、5、6 点 ), 这 样 , 事件 4 的 
概率 显然 等 于 3/6 = 1/2, 即 P(4) = 1/2. 而 事件 B 的 概率 为 P(B) = 4/6 = 2/3. 
但 是 ,“ 得 到 大 于 或 等 于 3 点 或 者 偶数 点 ”的 事件 的 概率 就 不 是 P(A) + P(B) = 
1/2 十 2/3 = 二 7/6 了 ,这 显然 多 出 来 了 . 概率 怎么 能 够 大 于 1 昵 ? 按照 中 学 时 关于 集 
合 的 记号 , 该 事件 称 为 4 和 B 的 并 , 记 为 4U B. 刚才 多 出 来 的 部 分 就 是 4 和 B 的 共 
同 部 分 4NB( 称 为 4 和 B 的 交 ) 的 概率 (这 个 概率 算 了 两 遍 ), 它 为 “得 到 既是 偶数 , 又 
大 于 等 于 3” 的 部 分 , 即 4 和 6 两 点 . 出 现 事 件 4 或 者 6 的 概率 为 1/6 十 1/6 = 1/3. 于 是 
应 该 把 算 重 了 的 概率 减 去 . 这 样 “ 得 到 大 于 或 等 于 3 点 或 者 偶数 点 ”的 事件 4 U B 的 
概率 就 是 PL4UB) = P(A)+ P(B)— P(A4NB)=1/2+2/3—1/3=5/6. 当 
然 , 这 个 问题 也 可 以 换个 角度 来 看 , 如 果 记 事件 C = A U B, 那么 CC 就 是 既 不 是 
偶数 又 小 于 3 点 的 事件 , 也 就 是 说 只 有 1 点 了 . 它 的 概率 为 1/6, 即 P(CC) = 1/6. 这 
样 根据 互补 事件 的 概率 , P(4U B) = P(C) =1- P(CC) =1-1/6=5/6. 这 
种 P(AUB)= P(A4) 十 P(B) 一 P(A4NB) 的 公式 也 适用 于 两 个 不 可 能 同时 发 生 的 
事件 , 但 因为 那 时 P(AMmB) = 0, 所 以 只 剩 下 P(4UB) = P(4) + P(B) 了 . 这 种 
交 等 于 空 集 (4 如 = 9, 这 里 % 表 示 空 集 或 空 事件 ) 的 事件 为 两 个 不 可 能 同时 发 生 
的 事件 , 称 为 互 不 相 容 事 件 (mutually exclusive events). 


概率 的 乘法 


如 果 你 有 一 个 固定 电话 和 一 个 手机 , 假定 固定 电话 出 毛病 的 概率 为 0.01， 而 
手机 出 问题 的 概率 为 0.05, 那么 , 两 个 电话 同时 出 毛病 的 概率 是 多 少 昵 ? 聪明 的 
读者 马上 会 猜 出 , 是 0.01 x 0.05 = 0.0005. 但 是 这 种 乘法 法 则 , 即 P(4n B) = 
P(A)P(B), 仅仅 在 两 个 事件 独立 (independent) 时 才 成 立 . 

如 朱 事 件 不 独立 则 需要 引进 条 件 概率 (conditional probability)， 比 如 
三 个 人 抽签 , 而 只 有 一 个 人 能 够 抽 中 ， 因 此 每 个 人 抽 中 的 机 会 是 1/3， 假 定 
用 Ai, A2, hs 分别 代表 这 三 个 人 抽 中 的 事件 , 那么 , P(A1) = P(Ahs) = P(4;) = 
1/3. 但 是 由 于 一 个 人 抽 中 , 其 他 人 就 不 可 能 抽 中 , 所 以 , 这 三 个 事件 不 独立 ， 刚 
才 的 乘法 规则 不 成 立 , 这 时 , P(Ai1 4s) = P(A1Nn hs) = P(Ahsn hs)=0, 
而 如 销 用 乘法 规则 应 该 是 (1/3)2 = 1/9. 但 是 可 以 计算 条 件 概 率 ， 比 如 第 
一 个 人 抽 到 (事件 41)， 则 在 这 个 条 件 下 其 他 两 个 人 抽 到 的 概率 都 为 0， 记 
为 P(A2|41) = P(As|41) = 0. 如 果 第 一 个 人 没有 抽 到 (事件 4c), 那么 其 他 两 
人 抽 到 的 概率 均 为 1/2, 记 为 P(4z|45) = P(h4s|45) = 1/2. 一 般 地 , 在 一 个 事 
件 B 已 经 发 生 的 情况 下 , 事件 4 发 生 的 条 件 概 率 定义 为 ( 贝 叶 斯 公式 ) 

P(ANB) 


PC4IB) = —5 EB 





,7(B) #0. 
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思考 一 下 : 
1. 在 得 奖品 的 抽签 中 , 先 抽 和 后 抽 是 否 机 会 是 一 样 的 ? 为 什么 ? 


2. 一 个 有 10 个 主要 部 件 的 机 械 中 , 如 果 第 ?个 出 问题 的 概率 为 pi, 而 且 它 们 是 否 出 
问题 互相 独立 , 那么 全 都 不 出 问题 的 概率 是 多 少 ? 





4.3 变量 的 分 布 


随机 变量 取 一 切 可 能 值 或 范围 的 概率 或 概率 的 规律 称 为 概率 分 
布 (probability distribution， 简 称 分 布 )， 有 一 些 概率 分 布 可 以 用 表 或 各 种 
图 来 表示 , 一 些 可 以 用 公式 来 表示 ,当然 , 很 多 分 布 很 难 表 示 出 来 . 一 个 概率 分 
布 是 和 茶 总 体 (population) 也 称 为 样本 空间 (sampling space) 相 联系 的 . 在 
第 二 章 中 我 们 提 到 了 抽样 调查 时 的 总 体 (或 有 限 总 体 ), 那 是 没有 和 任何 概率 相 联 
系 的 实际 存在 . 我 们 在 第 二 章 的 注 中 也 提 到 了 在 确定 了 抽样 方法 之 后 , 这 个 有 限 
总 体 就 可 能 与 概率 有 关 的 总 体 有 某 种 联系 了 , 并 且 可 能 对 诸如 总 体 比 例 等 进行 推 
断 . 这 里 的 总 体 或 样本 空间 为 一 个 抽象 的 空间 , 它 是 由 某 种 试验 的 所 有 可 能 结果 
所 组 成 的 , 这 些 结果 的 获得 都 服从 某 种 概率 规律 . 因此 , 一 个 总 体 (样本 空间 ) 是 由 
一 个 取 值 范围 及 相连 的 概率 所 组 成 的 .因此 给 出 了 概率 分 布 就 等 于 知道 了 总 体 . 
一 些 用 数学 语言 表示 的 概率 分 布 有 一 些 理论 参数 , 称 为 总 体 参 数 (population 
parameter). 在 第 三 章 介 绍 过 基于 样本 数据 的 样本 均值 、 样 本 标准 差 和 样本 方 
差 等 概念 . 这 些 样 本 特征 可 能 是 相应 的 总 体 特征 的 反 喘 . 我 们 也 有 描述 变量 “位 
置 "的 总 体 均值 、 总 体 中 位 数 、 总 体 百 分 位 数 以 及 描述 变量 分 散 (集中 ) 程 度 的 总 
体 标准 差 和 总 体 方差 等 概念 . 具体 公式 见 本 章 后 面 小 结 . 


4.3.1 离散 随机 变量 的 分 布 


离 语 随机 变量 只 取 离 散 的 值 ,， 比如 山子 的 点 数 、 次 品 的 个 数 、 得 病 的 人 数 等 
等 ,每 一 种 取 值 都 有 某 种 概率 . 各 种 取 值 点 的 概率 总 和 应 该 是 1， 当 然 离散 变量 不 
仅 限 于 取 非 负 整 数值 . 一 般 来 说 , 某 离散 随机 变量 的 每 一 个 可 能 取 值 x; 都 相应 于 取 
该 值 的 概率 p(x;), 这 些 概率 应 该 同时 满足 关系 


2 Po ) = 1, p(xi) > 0. 


满足 这 样 的 关系 的 那些 p(z,) 就 称 为 该 离散 随机 变量 的 概率 分 布 离散 变量 取 值 的 
个 数 不 一 定 是 有 穷 的 . 例如 后 面 要 介绍 的 Poisson 分 布 的 取 值 范围 就 是 所 有 的 非 负 
整数 , 因此 有 无 穷 多 的 可 能 值 . 
1. 二 项 分 布 

最 简单 的 离散 分 布 应 该 是 抛 硬币 所 基于 的 概率 分 布 . 比如 用 p 代 表 得 到 硬币 正 


“离散 变量 只 在 有 穷 的 或 者 可 数 的 集合 中 取 值 . 所 谓 可 数 (countable), 意味 着 集合 中 每 个 数目 都 可 以 
和 自然数 一 一 对 应 (可 以 用 自然 数 编号 ). 
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面 的 概率 , 那么 1 一 p 则 是 得 到 反面 的 概率 . 如 果 知 道 p = 1/2, 就 有 1 一 p = 1/2， 
于 是 这 个 抛 人 硬币 的 试验 的 概率 分 布 也 就 都 知道 了 . 这 种 试验 可 以 重复 很 多 次 . 

这 种 有 两 种 可 能 结果 的 试验 有 两 个 特点 : 一 是 各 次 试验 互相 独立 , 二 是 每 次 
试验 得 到 一 种 结果 的 概率 不 变 ( 这 里 是 得 到 正面 的 概率 总 是 p). 类 似 于 抛 硬 币 的 仅 
有 两 种 结果 的 重复 独立 试验 被 称 为 Bernoulli 试 验 (Bernoulli trials). 下 面 的 
试验 都 可 以 近似 地 看 成 为 Bernoulli 试 验 : 每 一 个 进入 某 商场 的 顾客 都 有 购买 或 不 
购买 商品 的 两 种 可 能 、 每 个 被 调查 的 人 士 会 支持 或 不 支持 某 种 观点 、 每 一 个 产妇 
有 生出 男 婴 和 女 婴 两 种 可 能 等 等 . 根据 这 种 简单 试验 的 分 布 , 可 以 得 到 基于 这 个 
试验 的 更 加 复杂 事件 的 概率 . 

为 了 叙述 方便 人 们 通常 把 Bernoulli 试 验 的 两 种 结果 称 为 “成 功 ”" 和“ 失败”. 
和 Bernoulli 试 验 相关 的 最 常见 的 问题 是 : 如 果 进 行 n 次 Bernoulli 试 验 , 每 次 成 功 
的 概率 为 p, 那么 成 功 k 次 的 概率 是 多 少 ? 这 个 概率 的 分 布 就 是 所 谓 的 二 项 分 
布 (binomial distribution). 之 所 以 取 这 个 名 字 是 因为 该 分 布 和 二 项 式 展开 的 
系数 有 关 ( 参 见 本 章 后 面 的 公式 ). 这 个 分 布 有 两 个 参数 , 一 个 是 试验 次 数 m， 另 一 
个 是 每 次 试验 成 功 的 概率 p. 基于 此 , 二 项 分 布 用 符号 B(n,p) 或 Bin(n,p) 表 示 . 由 
于 n 和 p 可 以 根据 实际 情况 取 各 种 不 同 的 值 , 因此 二 项 分 布 是 一 族 分 布 , 族 内 的 分 
布 以 这 两 个 参数 来 区 分 . 根据 公式 容易 得 到 二 项 分 布 B(n,p) 的 (总 体 ) 均 值 为 nw， 
方差 为 np(1 一 p), 标准 差 为 Vnp(1 一 p). 显然 , 一 次 Bernoulli 试 验 成 功 与 否 的 概 
率 分 布 为 二 项 分 布 的 特例 B(1,»). 

二 项 分 布 的 概率 过 去 常用 二 项 分 布 表 来 查 出 . 现在 从 任何 统计 软件 都 可 以 很 
容易 得 到 这 个 概率 . 在 目前 统计 软件 发 达 的 情况 下 , 对 于 较 复杂 的 问题 所 涉及 的 二 
项 分 布 一 般 都 自动 处 理 了 . 在 处 理 实际 问题 中 很 少 会 遇 到 直接 按照 公式 计算 二 项 
分 布 概率 的 情况 , 但 这 里 还 是 给 出 其 一 般 公 式 . 下 面 p(k) 代 表 在 n 次 Bernoulli 试 验 
中 成 功 K 次 的 概率 , p 为 每 次 试验 成 功 的 概率 . 有 


p(k) = (za —p)"*, k=0,1,...,n 


-i 


为 二 项 式 系数 , 按照 不 同 习惯 , 也 用 Cx*，Cr，C,, ，。 C4 等 不 同 符号 表示 

图 4.1 为 用 RR 产生 的 B(5,p) 在 p = 0.1 到 0.9 的 9 个 二 项 分 布 的 条 形 图 , 横 坐 标 是 
成 功 次 数 , 而 纵 坐 标 为 某 个 成 功 次 数值 上 的 概率 . 

从 图 4.1 可 以 看 出 , 只 有 当成 功 概率 等 于 失败 概率 时 (p = 0.5), 这 个 分 布 是 对 
称 的 , 即 在 五 次 试验 中 成 功 0 次 (失败 5 次 ) 和 成 功 5 次 (失败 0 次 ) 的 概率 都 是 0.03125， 
成 功 1 识 (失败 4 次 ) 的 概率 和 失败 1 次 (成 功 4 次 ) 的 概率 都 是 0.15625 等 等 ， 而 当 z 为 
其 他 不 等 于 0.5 的 值 时 , 分 布 就 不 对 称 了 . 

下 面 两 个 表 分 别 为 B(5,0.5) 和 B(5,0.7) 的 分 布 , 它们 是 用 下 面 Ri 语句 计算 的 : 
dbinom(0:5,5,.5) ;dbinom(0:5,5, .7) 


这 里 
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4.1 九 个 二 项 分 布 B(5,p) (pz = 0.1 到 0.9) 的 概率 分 布 图 . 


B(5,0.5) 的 分 布 
1 2 3 4 9 





















0.03125 0.15625 0.3125 0.3125 0.15625 0.03125 
B(5, 0.7) 的 分 布 
成 功 次 数 0 1 2 3 4 5 
概率 p(k) | 0.00243 0.02835 0.1323 0.3087 0.36015 0.16807 


2. 多 项 分 布 


和 二 项 分 布 最 类 似 的 分 布 是 二 项 分 布 的 推广 , 称 为 多 项 分 布 (multinomial 
distribution). 二 项 分 布 的 每 次 试验 中 只 有 两 种 可 能 的 结果 , 而 多 项 分 布 则 在 
每 次 试验 中 有 多 种 可 能 的 结果 . 比如 在 调查 顾客 对 5 个 品牌 的 饮料 的 选择 中 , 每 
种 品牌 都 会 以 一 定 的 概率 中 选 , 假定 这 些 概率 为 pl, pz, ps, p4;, ps. 每 次 试验 的 结果 
只 可 能 有 一 个 , 因此 这 些 概率 的 和 为 1, 即 pi + po 十 p3 十 pa 十 ps 二 1. 在 二 项 分 
布 中 ,人们 关心 的 是 在 n 次 试验 中 成 功 k 次 的 概率 (有 了 成 功 k 次 的 概率 , 就 有 了 失 
败 n 一 k 光 的 概率 ). 但 是 在 多 项 分 布 问题 中 (用 上 面 5 个 品牌 的 例子 说 明 ), 所 关心 的 
是 在 ?次 试验 中 (这 里 是 调查 )， 选择 5 个 品牌 的 人 数 分 别 为 mi， To, Ts3, Ta, THs 的 概 
率 . 目 然 , mi 十 mz 十 ms 十 ma 十 ms 二 n. 类 似 于 二 项 分 布 , 多 项 分 布 的 符号 可 以 
为 M(n;p1,p2,p3,2p4,ps), 也 有 用 “MN 或 “Mwlt” 来 表示 的 ， 当然 , 符号 并 不 重 
要 . 一 个 前 面 已 经 谈 过 多 次 的 多 项 分 布 的 例子 是 撕 角 子 . 这 里 有 六 个 结果 . 如 果 钥 
子 是 公平 的 , 那么 在 一 次 试验 中 出 现 每 种 点 数 的 概率 都 是 1/6. 因此 , 在 mn” 次 掷 骨 子 
中 , 得 到 各 种 点 数 的 数目 这 就 是 一 个 多 项 分 布 : M (n; 1/6,1/6, 1/6, 1/6, 1/6, 1/6). 
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绸 比如 打 辑 . 假定 每 次 射击 有 从 0 到 10 环 的 11 种 可 能 , 显然 , 一 个 人 在 nn 次 类 似 条 件 
下 的 射击 中 , 得 到 各 种 环 数 的 数目 也 可 以 认为 近似 地 服从 一 个 多 项 分 布 . 


3. Poisson 分 布 


男 一 个 常用 离散 分 布 是 Poisson 分 布 (翻译 成 “ 泊 松 分 布 "或 “ 普 阿 松 分 布 ” ). 
它 可 以 认为 是 衡量 某 种 事件 在 一 定期 间 出 现 的 数目 的 概率 . 比如 , 在 一 定时 间 内 
顾客 的 人 数 、 打 入 电话 总 机 电话 的 个 数 、 放 射 性 物质 放射 出 来 并 到 达 某 区 域 的 
粒子 数 等 往往 被 认为 近似 地 服从 Poisson 分 布 . 当然 , 在 不 同 条 件 下 , 同样 事件 在 
单位 时 间 中 出 现 同 等 数目 的 概率 不 尽 相 同 . 比如 中 午 和 晚上 某 商 店 在 10 分 钟 内 
出 现 5 个 顾客 的 概率 就 不 一 定 相 同 . 因此 ， 和 二 项 分 布 一 样 ，Poisson 分 布 也 是 一 
个 分 布 族 . 族 中 不 同 成 员 的 区 别 在 于 事件 出 现 数 目的 均值 (通常 用 入 表示) 不 一 样 . 
Poisson 分 布 的 可 能 取 值 范围 为 所 有 非 负 整数 ,参数 为 和 的 Poisson 分 布 变 量 的 概率 
分 布 为 (p(k) 表 示 Poisson 变 量 等 于 k 的 概率 ) 


入 
A 
p(k) 一 上 AT， 


图 4.2 为 参数 为 3、6、10 的 Poisson 分 布 在 k = 0, 1,2, …, 20 处 的 概率 图 . 


k=0,1,2,... 


ptk) 





图 4.2 ”参数 和 为 3、6、10 的 Poisson 分 布 (只 标 出 了 20 之 内 的 部 分 ). 


Poisson 分 布 不 是 对 称 的 , 它 在 右边 有 长 长 的 尾巴 . 当然 , 从 图 上 可 以 看 出 尾 
巴 上 整数 点 的 概率 ( 纵 坐 标 ) 非 常 小 . 这 里 没有 用 条 形 图 , 而 用 了 散 点 图 的 形式 . 那 
些 点 之 间 用 连 线 连接 主要 是 为 了 容易 比较 这 三 个 分 布 的 形状 . 实际 上 只 有 在 整数 
点 上 的 概率 值 才 有 意义 . 
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Poisson 分 布 的 概率 过 去 可 以 从 统计 书后 面 的 表 中 得 到 , 现在 可 以 从 任何 统计 
软件 中 得 到 . 不 过 在 目前 统计 软件 发 达 的 情况 下 , 在 处 理 实际 问题 中 很 少 会 遇 到 
直接 用 公式 计算 Poisson 分 布 的 概率 的 情况 . 参数 为 的 Poisson 分 布 用 P( 入 ) 表 示 . 
由 其 概率 分 布 可 以 证 明 其 参数 和 既是 Poisson 变 量 的 总 体 均 值 , 也 是 总 体 方差 , 其 
标准 差 为 的 平方 根 . Poisson 分 布 族 中 的 成 员 是 用 不 同 的 和 来 区 分 的 . 


4. 超 几 何 分 布 


超 几 何 分 布 和 有 限 总 体 的 不 放 回 抽样 的 实践 有 密切 关系 . 假定 有 一 批 500 个 
产品 , 而 其 中 有 5 个 次 品 ， 质量 检查 人 员 随 机 抽取 20 个 产品 进行 检查 .如果 抽 
到 的 20 个 产品 中 含有 2 个 或 更 多 不 合格 产品 , 则 整个 500 个 产品 将 会 被 退回 .这 
时 ， 人 们 想 知道 , 该 批 产 品 被 退回 的 概率 是 多 少 ? 这 种 概率 就 满足 超 几 何 分 
布 (hypergeometric distribution). 这 是 一 种 所 谓 的 “不 放 回 抽样 >， 也 就 是 
说 , 一 次 抽取 若干 物品 , 每 检查 一 个 之 后 并 不 放 回 . 这 样 , 每 一 个 产品 都 不 会 被 重 
复 检查 . 如 果 是 “ 放 回 式 抽样 ”, 也 就 是 每 检查 一 个 就 把 它 放 回 , 这 样 再 抽取 时 , 检 
碍 过 的 物品 还 有 可 能 被 抽 上 , 那么 每 次 抽样 时 得 到 次 品 的 概率 是 一 样 的 , 等 于 次 品 
的 比例 , 这 就 不 是 超 几 何 分 布 而 是 二 项 分 布 了 . 超 几 何 分 布 族 的 成 员 被 三 个 参数 
决定 : 产品 总 个 数 n, 其 中 不 合格 产品 数目 m, 不 放 回 抽样 的 数目 t. 而 样本 中 有 z 个 


不 合格 产品 的 概率 为 
(®) (" 一 
LIZL 01. 


看 得 出 来 , 超 几何 分 布 和 排列 组 合 密切 相关 . 现在 , 计算 机 软件 很 容易 计算 超 几 何 
分 布 , 实际 工作 者 很 少 有 机 会 自己 通过 公式 用 笔 和 纸 计 算 超 几何 分 布 了 . 


思考 一 下 : 
1. 假定 有 一 批 500 个 产品 , 而 其 中 有 5 个 次 品 . 质量 检查 人 员 随 机 抽取 20 个 产品 进 


行 检查 .那么 放 回 抽样 和 不 放 回 抽样 时 发 现 2 个 次 品 的 概率 有 什么 不 同 ? 各 
服从 什么 分 布 ? 


p(x) = 


. 在 前 面 离散 分 布 的 定义 中 说 概率 应 该 同时 满足 关系 ?2;pD(Zi) = 1 和 p(xi) > 0， 
有 人 说 第 二 个 式 子 应 该 为 1 之 p(2i) > 0, 你 觉得 有 关系 吗 ? 


. 是 否 可 以 认为 二 项 分 布 为 多 项 分 布 的 一 个 特例 ? 





4.3.2 ”连续 随机 变量 的 分 布 


许多 变量 取 连 续 值 , 比如 高 度 、 长 度 、 重 量 、 时 间 、 距 离 等 等 , 它们 被 称 为 连 
续 变量 (continuous variable). 换言之 , 一 个 随机 变量 如 果 能 够 在 一 个 区 间 ( 无 
论 这 个 区 间 多 么 小 ) 内 取 任 何 值 , 则 称 之 为 在 此 区 间 内 的 连续 随机 变量 , 其 分 布 称 
为 连续 型 概率 分 布 ， 这 时 它们 的 概率 分 布 就 很 难 准确 地 用 描述 离散 变量 概率 的 
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条 形 图 来 表示 . 让 我 们 想象 连续 变量 观测 值 的 直方 图 , 如 果 其 纵 坐 标 为 相对 频数 ， 
那么 所 有 这 些 和 矩形 条 的 高 度 和 为 1, 而 且 完 全 可 以 重新 设置 量 纲 , 使 得 这 些 窍 形 
条 的 面积 和 为 1. 如 果 不 断 增加 观测 值 , 并 不 断 增 加 直方 图 的 矩形 条 的 数目 , 这 些 
直方 图 就 会 越 来 越 像 一 条 光滑 曲线 , 其 下 面 的 面积 和 为 1. 这 种 曲线 就 是 所 谓 概 
率 密度 函数 (probability density function, pdf), 它 简 称 为 密度 函数 或 密度 . 
图 4.3 就 展示 了 逐渐 增加 矩形 条 数目 的 直方 图 和 一 个 形状 类 似 的 密度 曲线 . 


Histogram 1 Histogram 2 


hb || 


Histogram 3 Density 


他、 pe NM 


一 












































图 4.3 ”逐渐 增加 观测 值 数目 和 矩形 条 数目 的 直方 图 和 一 个 形状 类 似 的 密度 曲线 . 


连续 变量 落 入 茶 个 区 间 的 概率 就 是 概率 密度 函数 的 曲线 在 这 个 区 间 上 所 窗 盖 
的 面积 , 因此 , 在 理论 上 , 这 个 概率 就 是 密度 函数 在 这 个 区 间 上 的 积分 : 学 过 微 积 
分 的 人 都 知道 , 连续 函数 在 一 个 点 的 积分 是 0( 因 为 曲线 下 面 的 面积 退化 成 一 条 线 )， 
所 以 , 对 于 连续 变量 , 取 茶 个 特定 值 的 概率 都 是 零 , 而 只 有 变量 取 值 于 某 个 (或 若 
干 个 ) 区 闻 的 概率 才 可 能 大 于 0. 和 离散 变量 所 有 取 值 的 概率 和 为 1 类 似 , 连续 变量 
密度 图 数 曲 线 (这 里 用 j 表 示 ) 下 面 覆盖 的 总 面积 为 1, 即 


| _# juz 1. 


当然 , 连续 随机 变量 也 有 描述 变量 “位 置 " 的 总 体 均值 、 总 体 中 位 数 、 总 体 百 
分 位 数 以 及 摘 述 变量 分 散 ( 和 集中) 程度 的 总 体 标准 差 和 总 体 方差 等 概念 ， 具体 公式 
见 本 章 后 面 小 结 

下 面 介 绍 几 种 常见 连续 变量 的 分 布 . 
TI 正 态 分 布 


在 北京 市 场 上 的 精制 盐 很 多 是 一 千克 袋 装 ， 上 面 标 有 “ 兆 含 量 1kg” 的 字样 . 
但 当 你 用 稍微 精确 一 些 的 天 平 称 那些 袋 装 盐 的 重量 时 , 会 发 现 有 些 可 能 会 重 
些 , 有 些 可 能 会 轻 些 , 但 都 是 在 1kg 左 右 . 多 数 离 1kg 不 远 , 离 1kg 越 近 就 越 可 能 出 
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现 , 离 1kg 越 远 就 越 不 可 能 . 一 般 认 为 这 种 重量 分 布 近似 地 服从 最 常用 的 正 态 分 
布 (normal distribution, 又 叫 高 斯 分 布 ， Gaussian distribution)， 近似 地 
服从 正 态 分 布 的 变量 很 常见 , 像 测 量 误 差 、 商 品 的 重量 或 尺寸 、 某 年 龄 人 群 的 身 
高 和 体重 等 等 . 此 外 , 在 一 定 条 件 下 , 许多 不 是 正 态 分 布 的 样本 均值 在 样本 量 很 大 
时 , 也 可 用 正 态 分 布 来 近似 . 

正 态 分 布 的 密度 曲线 是 一 个 对 称 的 钟 型 曲线 (最 高 点 在 均值 处 )， 图 4.3 所 描 
述 的 分 布 就 是 正 态 分 布 . 正 态 分 布 也 是 一 族 分 布 , 各 种 正 态 分 布 根据 它们 的 均值 
和 标准 差 不 同 而 有 区 别 . 因此 一 个 正 态 分 布 用 N(j,o) 表 示 , 其 中 /为 (总 体 ) 均 信 ， 
而 o 为 (总 体 ) 标 准 差 . 正 态 分 布 也 常用 N (4,o”) 来 表示 , 这 里 o* 为 (总 体 ) 方 差 (标准 
差 的 平方 ). 当然 这 里 的 均值 和 标准 差 是 总 体 参数 , 而 不 是 样本 均值 和 样本 标准 专 . 
这 些 总 体 参 数 在 实际 问题 中 是 不 知道 的 , 但 可 以 估计 , 比如 用 样本 均值 和 样本 标准 
差 来 估计 总 体 均 值 和 总 体 标准 差 . 








0.8 
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D6 








， N(-2.0.5) ' 














4.4 两 条 正 态 分 布 的 密度 曲线 . 左边 是 N( 一 2,0.5) 分 布 , 右边 是 N(0,1) 分 布 . 


图 4.4 就 是 放 在 一 张 图 中 的 两 条 正 态 分 布 的 曲线 . 左边 的 是 NN( 一 2, 0.5) 分 布 ， 
右边 的 是 N(0,1) 分 布 . 均值 为 0, 标准 差 为 1 的 正 态 分 布 N(0,1) 称 为 标准 正 态 分 
布 (standard normal distribution). 标准 正 态 分 布 的 密度 函数 通常 用 p(x) 表 
示 . 任何 具有 正 态 分 布 N(4,o) 的 随机 变量 X 都 可 以 用 简单 的 变换 ( 减 去 其 均值 j， 
再 除 以 标准 差 c)2 = (和 X 一 1)/o 而 成 为 标准 正 态 随机 变量 . 这 种 变换 和 标准 得 分 
的 意义 类 似 . 

当然 , 和 所 有 连续 变量 一 样 , 正 态 变量 落 在 某 个 区 间 的 概率 就 等 于 在 这 个 区 间 
上 密度 曲线 下 面 的 面积 . 比如 , 标准 正 态 分 布 变量 落 在 区 间 (0.51,1.57) 中 的 概率 ， 
就 是 在 标准 正 态 密度 曲线 下 面 在 0.51 和 1.57 之 间 的 面积 . 图 4.5 表 示 了 这 个 面积 . 利 
用 统计 软件 的 有 关 函 数 (后 面 要 介绍 ) 很 容易 得 到 这 个 面积 等 于 0.24682, 也 就 是 说 ， 
标准 正 态 变量 在 区 间 (0.51,1.57) 中 的 概率 等 于 0.24682. 记 密 度 函 数 为 p(x), 那么 
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这 个 面积 等 于 积分 可 
gzZ)dz = 0.24682. 
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4.5 ”标准 正 态 变 量 在 区 间 (0.51, 1.57) 中 的 概率 (阴影 部 分 面积 ). 


现在 引进 总 体 的 下 侧 分 位 数 、 上 侧 分 位 数 以 及 相应 的 尾 概 率 的 概念 ， 对 
于 连续 型 随机 变量 X, a 下 侧 分 位 数 ( 又 称 为 a 分 位 数 ，a-quantile) 定 义 为 满足 
关系 P(X < xz。) = Qa 的 数 z。, 这 里 的 a 称 为 下 ( 左 ) 侧 尾 概率 (lower/left tail 
probability)， 而 aw 上 侧 分 位 数 (又 称 w 上 分 位 数 ，a-upper quantile) 定 义 为 它 
满足 关系 P(X > za) = a 的 数 z。, 这 里 的 a 称 为 上 ( 右 ) 侧 尾 概率 (upper/right 
tail probability). 对 于 一 般 的 分 布 , 分 位 数 的 定义 稍微 复杂 一 些 !. 显然 , 对 于 
连续 分 布 , aq 上 侧 分 位 数 等 于 (1 一 a) 下 侧 分 位 数 , 而 (1 一 a) 上 侧 分 位 数 等 于 a 下 
侧 分 位 数 , 通常 用 z。, 表 示 标 准 正 态 分 布 的 a 上 侧 分 位 数 , 即 对 于 标准 正 态 分 布 变 
量 Z, 有 P(2Z > za) = a. 图 4.6 表 示 了 0.05 上 侧 分 位 数 z。 = zo00s 及 相应 的 尾 概 
率 (a = 0.05). 有 些 书 用 符号 2_。 而 不 是 2 来 表示 aw 上 侧 分 位 数 , 因此 在 看 参考 文 
献 时 要 注意 符号 的 定义 . 

在 统计 推断 过 程 中 , 往往 需要 要 对 正 态 分 布 变 量 进行 变换 . 这 些 变换 之 后 的 变 
量 , 作为 正 态 分 布 变量 的 函数 , 就 不 一 定 是 正 态 分 布 了 . 只 有 正 态 分 布 变量 的 线性 
组 合 才 会 仍然 是 正 态 分 布 . 下 面 介 绍 由 正 态 分 布 导出 的 三 种 分 布 . 这 些 是 以 后 章节 
中 经 党 会 遇 到 的 分 布 . 


2. X 分布 
由 正 态 变量 导出 的 分 布 之 一 是 Xx* 分 布 (chi-square distribution, 也 翻译 


“对 于 一 般 的 分 布 , 总 体 的 a 下 侧 分 位 数 定义 为 满足 P(X < za) < a < P(X < za) 的 ze， 而 w 上 侧 分 
位 数 定义 为 满足 P(X > za) < a < P(X > za) 的 re. 这 些 分 位 数 一 般 并 不 一 定 唯一 , 只 有 对 于 连续 分 布 ， 
分 位 数 才 唯 一 . 
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Tail Probability for N(0,1) (= 0.05) 











Density of N{0,1) 











4.6 ”表示 NN(0, 1) 分 布 右 侧 尾 概率 P(2Z > za) = a 的 示意 图 (这 里 a = 0.05). 


为 卡 方 分 布 ).， nn 个 独立 标准 正 态 变量 的 平方 和 称 为 有 n 个 目 由 度 的 Xx“ 分 布 ， 记 
为 x*(n)， 更 一 般 地 , 若干 个 独立 的 x 分 布 变量 的 和 也 有 x 分布, 其 日 由 度 等 于 
那些 x? 分 布 自由 度 之 和 . Xx? 分 布 也 是 一 族 分 布 , 由 该 族 成 员 的 不 同 目 由 度 来 区 分 . 
x 分 布 在 后 面 要 介绍 的 一 些 检验 中 会 用 到 . 由 于 X“ 分布 变量 为 正 态 变量 的 平方 和 ， 
它 不 会 取 负 值 . 

图 4.7 为 三 个 不 同 自由 度 的 x 分布 密 度 图 . 该 分 布 在 一 般 的 统计 书 中 都 有 概率 
表 . 而 在 计算 机 统计 软件 的 解 题 过 程 中 , 一 般 都 会 自动 算出 所 需要 的 与 x* 分 布 有 
天 的 结果 . 





4.7 ”自由 度 为 2>、3、5 的 x 分 布 密度 图 (只 显示 了 小 于 10 的 部 分 ). 
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3. 1t 分 布 


正 态 变量 的 样本 均值 也 是 正 态 变量 ， 在 统计 推断 中 往往 希望 利用 它 减 去 
总 体 均 值 再 除 以 均值 的 总 体 标准 差 来 得 到 标准 正 态 变量 .在 这 个 变换 中 ， 如 
果 用 均值 的 样本 标准 差 来 代替 其 未 知 的 总 体 标 准 差 时 , 即 用 (xz 一 2)/(s/Vn) 代 
蔡 (z 一 /(o/ Vn), 得 到 的 结果 分 布 就 不 再 是 标准 正 态 分 布 了 . 它 的 密度 曲线 看 
上 去 有 些 象 标准 正 态 分 布 , 但 是 中 间 瘦 一 些 , 而 且 尾 巴 长 一 些 . 这 种 分 布 称 为 t 分 
布 (t-distribution, 或 学 生 分 布 ，Student”s t)， 之 所 以 叫 t 分 布 是 因为 提出 
者 Gosset 用 t 来 表示 这 个 变量 , 而 发 表 有 关 论 文 时 , Gosset 用 的 假名 字 Student, 因 
此 也 叫做 学 生 分 布 . 不 同 的 样本 量 通 过 标准 化 所 产生 的 t 分 布 也 不 同 , 这 样 就 形成 
了 一 族 分 布 . t 分 布 族 中 的 成 员 是 以 自由 度 来 区 分 的 . 这 里 的 自由 度 等 于 样本 量 减 
去 1 (如 果 样 本 量 为 n, 刚才 定义 的 t 分 布 的 自由 度 为 n 一 1, 参见 本 章 后 面 小 结 .). 

由 于 产生 t 分 布 的 情况 不 只 上 面 一 种 , 简单 说 自由 度 就 是 样本 量 减 1 是 不 准确 
的 .自由 度 这 个 概念 还 出 现在 其 他 分 布 之 中 , 基本 上 是 信息 量 大 小 的 一 个 度量 . 
在 t 分 布 中 , 如 果 自 由 度 趋 于 无 穷 , 那么 t 分 布 就 是 标准 正 态 分 布 了 . 一 个 有 kk 个 
自由 度 的 t 分 布 用 t+(k) 表 示 ， 当然 也 有 用 t(4) 或 妇 表 示 的 ， 图 4.8 展 示 了 标准 正 态 分 
布 N(0,1) 和 上 自由 度 等 于 1 的 t(1) 分 布 的 密度 函数 曲线 . 可 以 看 出 t 分 布 两 边 尾 巴 比 
较 长 . 但 是 当 自 由 度 增 加 时 , 它 的 分 布 就 逐渐 接近 标准 正 态 分 布 了 . 因此 , 在 大 样 
本 时 , 可 以 用 标准 正 态 分 布 来 近似 t 分 布 . t 分 布 还 可 以 用 x? 分 布 导 出 , 这 将 在 最 后 
小 结 中 说 明 . 


























4.8 ”标准 正 态 分 布 和 t(1) 分 布 的 密度 图 . 


通常 用 t。 表 示 t 分 布 相 应 于 右 侧 尾 概率 a 的 t 变 量 的 a 上 侧 分 位 数 , 即 对 于 t 分 布 
变量 了, 有 P(T > 如 ) = Qa. 在 突出 自由 度 时 , 也 用 ta。, 也 有 的 书 用 t。_1 或 t, 。_1 表 
示 . 图 4.9 表 示 了 自由 度 为 2 的 t(2) 分 布 右边 的 尾 概 率 (a = 0.05). 
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Tail Probability for t(2) (ac = 0.05) 











Density of t(2) 
0.00 005 QD 015 020 025 0.30 0.35 





PIT < too0s) =0.95 





图 4.9 ”表示 t(2) 分 布 右 侧 尾 概率 P(T > 如 ) = ca 的 示意 图 (这 里 a = 0.05). 


4. F 分 布 


两 个 独立 x 分 布 变 量 ( 在 除 以 它们 各 自 自 由 度 之 后 ) 的 比 称 为 F 分 布 变量 , 而 
两 个 x 分 布 的 自由 度 则 为 F 分 布 的 自由 度 , 因此 , F 分 布 有 两 个 自由 度 : 第 一 个 自 
由 度 等 于 在 分 子 上 的 x 分 布 的 自由 度 , 第 二 个 自由 度 等 于 在 分 母 的 x? 分 布 的 自 
由 度 . 人 们 很 少 手 算 F 分 布 概率 , 通常 都 是 计算 机 代劳 了 .图 4.10 为 自由 度 分 别 
为 (3,20) 和 (50,20) 的 两 个 F 分 布 密 度 图 . 可 以 看 出 , 当 第 二 个 自由 度 相 同时 , 第 一 
个 目 由 度 越 小 , 峰 越 靠近 左边 . 


5. 均匀 分 布 


均匀 分 布 (uniform distribution) 是 最 简单 的 连续 型 分 布 . 它 的 取 值 范围 是 
一 个 区 间 , 比如 (a, 5). 均匀 分 布 随 机 变量 X 取 值 在 该 区 间 的 一 个 子 区 间 的 概率 等 
于 该 子 区 间 宽 度 与 区 间 (a, 05) 宽度 b 一 a 之 比 . 比如 区 间 (a,5) 为 (0,1) 区 间 , 那么 均匀 
分 布 变 量 X 落 入 (0.3,0.7) 的 概率 为 (0.7 - 0.3)/(1 一 0) = 0.4. 显然 , 均匀 分 布 的 密 
度 函 数 在 (a,5b) 区 间 为 常数 1/(b 一 a), 而 在 该 区 间 外 为 零 ， 这 种 形状 为 一 个 矩形 ， 
因此 均匀 分 布 也 称 为 矩形 分 布 (rectangular distribution). 图 4.11 展 示 了 在 区 
间 (0, 1) 上 的 均匀 分 布 的 密度 函数 . 


4.3.3 ”累积 分 布 函数 


在 前 面 离散 分 布 的 情况 可 以 用 p(z) 表 示 该 变量 取 值 z 的 概率 , 如 果 用 大 写 英文 
字母 X 表 示 相 应 分 布 的 随机 变量 , 那么 概率 P(X = zx) = p(z). 如 果 久 的 取 值 范围 
为 整数 , 则 有 


Plm<X<n)= 》 pk) 一 pm) 十 p(m 二 1) 十 十 pm 
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4.10 ”自由 度 为 (3, 20) 和 (50, 20) 的 F 分 布 密度 曲线 图 . 





4.11 在 区 间 (0,1). 上 的 均匀 分 布 的 密度 函数 . 
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= P(X<n)- P(X<m-1). 


在 连续 分 布 的 情况 , 可 以 用 f(z) 表示 密度 函数 , 则 概率 (注意 在 连续 分 布 中 , 单 
独 点 的 概率 为 0, 因此 下 式 中 的 不 等 式 中 的 等 号 可 以 去 掉 ) 


Pla<X<b)= [ fea P(X <6b)— P(X < a). 


为 了 计算 概率 , 只 知道 密度 函数 对 于 碍 表 或 应 用 软件 来 得 到 已 知 分 布 的 概率 是 不 
方便 的 , 最 好 能 够 知道 随机 变量 小 于 或 等 于 茶 值 的 概率 . 在 上 面 公 式 中 , 如 果 知 道 
了 下 面 的 值 : 

P(X <n), P(X <m-1), P(X< 中 P(X < a), 


那么 , 在 对 离散 分 布 做 计算 时 就 不 用 做 那么 多 的 加 法 ， 而 在 连续 分 布 时 就 不 
用 做 积分 了 , 都 仅仅 做 一 个 减法 即 可 . 这 种 随机 变量 小 于 或 等 于 某 个 数值 的 概 
率 P(X < x) 就 称 为 累积 分 布 函数 (cumulative distribution function, 简 
称 cdf) 或 分 布 函数 . 累积 分 布 函数 概念 的 引进 , 对 于 查 表 或 使 用 软件 得 到 概率 ( 根 
据 上 面 两 个 公式 ) 是 很 方便 的 .多数 概率 分 布 表 都 是 以 累积 分 布 函 数 的 形式 出 现 
的 . 在 后 面 介 绍 软件 时 , 还 要 举例 说 明 如 何 利用 累积 分 布 函数 . 


思考 一 下 : 
1. 讨论 离散 随机 变量 各 连续 随机 变量 之 间 的 区 别 . 


2. x 分 布 、F 分 布 、t 分 布 都 是 由 正 态 分 布 导 出 的 分 布 , 它们 在 统计 中 很 常见 , 并 
| 不 是 因为 它们 在 实际 数据 中 很 常见 , 而 是 因为 它们 和 常见 的 正 态 分 布 之 间 的 关 
| 系 , 而 正 态 分 布 则 由 于 下 面 要 介绍 的 中 心 极限 定理 而 变 得 十 分 重要 . 这 几 个 分 
布 主要 出 现在 和 正 态 总 体 有 关 的 检验 中 , 这 在 后 面 章节 会 逐渐 出 现 . 


3. 连续 型 分 布 取 东 一 指定 值 的 概率 为 零 , 但 由 于 四 舍 五 入 , 连续 型 分 布 实现 的 记 
录 为 离散 的 .比如 年 龄 应 该 是 连续 变量 ,但 记录 时 大 多 精确 到 年 或 月 (最 多 到 
日 ). 这 样 连续 型 分 布 的 记录 值 则 仅仅 取 一 些 离散 值 了 . 这 应 该 解释 某 些 诸 如 
一 些 连 续 变量 的 实现 值 相同 等 现象 . 


4. 注意 , 真实 世界 变量 的 分 布 大 都 是 不 知道 的 , 因此 人 们 希望 用 少数 可 以 用 数学 
语言 表示 的 分 布 族 来 近似 地 描述 真实 分 布 . 这 种 做 法 有 很 大 的 局 限 性 . 非 参数 
统计 以 及 机 只 学 习 的 方法 就 是 摆脱 这 种 束缚 的 实践 





4.4 抽样 分 布 、 中 心 极 限定 理 


我 们 希望 利用 样本 , 特别 是 通过 作为 样本 函数 的 样本 统计 量 来 了 解 总 体 , 来 
对 总 体 参 数 进行 推断 ， 这 些 样 本 统计 量 包 括 前 面 提 到 过 的 样本 均值 、 样 本 中 位 
数 、 样 本 标准 差 以 及 由 它们 组 成 的 函数 .这 些 样本 统计 量 对 于 不 同 的 样本 (但 有 
相同 的 样本 量 ) 会 取 不 同 的 值 , 也 就 是 说 , 具有 相同 样本 量 的 样本 统计 量 作为 随机 
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样本 的 函数 也 是 随机 的 , 也 有 自己 的 分 布 . 这 些 分 布 就 称 为 抽样 分 布 (sampling 
distribution). 为 了 理解 抽样 分 布 的 直观 意义 , 我 们 来 看 每 次 掷 5 次 公平 股子 的 
试验 (样本 量 n = 5), 来 看 样本 均值 的 变化 . 下 表 记 录 了 前 15 次 每 次 得 到 的 结果 和 
该 次 的 样本 均值 . 

试验 编号 5 次 丘 骨 子 的 结果 样本 均值 


XI XX AX3 Xs Xs 从 
1 4 5 6 4 2 4.2 
2 1 S| 0 6 3 3.8 
3 1 1 4 2 6 2.8 
4 2 6 9 1 2 3.2 
0 6 2 2 3 3 3.2 
6 4 1] 2 1 5 2.6 
7 3 3 4 1 4 3.0 
8 4 ] 4 5 ] 3.0 
9 3 6 4 9 6 4.8 
10 9 5 6 4 9 9.0 
11 1 2 3 3 2 2.2 
12 1 1 9 2 2 2.2 
13 3 3 4 3 4 3.4 
14 9 ] 9 5 4 4.0 
15 9 6 6 1 4 4.4 


显然 这 些 样 本 均值 都 和 真正 的 总 体 均值 (1 十 2 十 3 十 4 十 5 十 6)/6 = 3.5 有 些 
差别 . 这 15 个 样本 均值 的 平均 (均值 ) 为 3.453333, 比 表 中 的 哪 一 次 试验 的 均值 都 接 
近 轧 体 均值 . 这 使 得 人 们 对 这 些 样 本 均值 的 分 布 感 兴趣 . 

假定 一 个 连续 分 布 的 变量 和 的 n 个 观测 值 组 成 一 个 样本 .如 果 因 的 总 体 均 值 
为 4, 而 总 体 标 准 差 为 o, 这 两 个 总 体 参数 通常 是 未 知 的 . 现在 , 我 们 主要 关注 总 体 
的 均值 4 从 这 个 样本 , 我 们 还 可 以 计算 样本 均值 X 和 样本 标准 差 s. 当然 样本 均值 
可 以 用 来 估计 4 的 值 (下 一 章 会 介绍 ). 具体 这 种 估计 的 好 坏 , 依赖 于 样本 均值 的 抽 
样 分 布 . 样本 均值 作为 随机 变量 有 如 下 的 性 质 (注意 , 这 里 并 没有 假定 六 的 分 布 ): 


1. 样本 均值 多 的 抽样 分 布 的 总 体 均值 等 于 . 
2. 样本 均值 头 的 抽样 分 布 的 总 体 标准 差 等 于 o /Vn, 显然 , 样本 量 越 大 , 总 的 标准 
兰 越 小 . 


3. 即使 X 的 分 布 不 是 正 态 , 那么 在 很 一 般 的 条 件 下 , 当 样 本 量 增加 时 , 态 的 分 布 
趋 近 于 正 态 分 布 W(H a/vVm). 这 就 是 所 谓 的 中 心 极 限定 理 (Central Limit 
Theorem, 缩写 为 CILT)1. 


1 中 心 极限 定理 成 立 的 一 个 充分 条 件 是 , 样本 点 是 独立 的 , 来 自 一 个 总 体 ( 同 分 布 ) 总 体 均值 存在 , 并 且 
有 非 零 有 限 总 体 方差 
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在 上 面 第 二 条 中 把 样本 均值 XX 的 抽样 分 布 的 总 体 标准 差 公式 中 的 o 换 成 样 
本 标准 差 s, 得 到 的 s/ Vn 就 是 第 三 章 引 进 的 均值 的 标准 误差 (standard error 
of mean)， 它 是 对 go/ Vn 的 一 个 近似 ， 中 心 极限 定理 是 概率 论 最 出 色 的 定理 
之 一 . 为 了 直观 地 说 明 它 的 意义 . 我 们 从 在 (0,1) 的 均匀 分 布 对 于 四 种 样本 量 大 
小 = 1,3, 10, 100 分 别 取 600 个 样本 , 在 每 个 样本 算出 均值 . 这 样 , 对 每 一 种 样本 
量 都 有 600 个 均值 , 用 这 些 均值 画 直 方 图 (图 4.12)， 可 以 看 出 , 样本 量 越 大 , 均值 的 
直方 图 越 像 正 态 变量 的 直方 图 , 而 且 数 据 的 分 散 程度 也 越 小 ( 越 集中 )， 


























4.12 不 同样 本 量 的 各 600 个 均 色 分布 样本 均值 x 的 直方 图 . 


统计 量 的 变换 


在 比较 样本 均值 了 和 假定 的 总 体 均值 i 时 , 仅仅 考虑 差 值 过 -~ /本 身 往往 不 如 
研究 它 的 某 种 有 同样 意义 的 变换 , 以 使 得 容易 发 现 其 分 布 . 类 似 地 , 要 比较 样本 标 
准 差 s 和 假定 的 总 体 标准 差 c, 也 不 能 仅仅 考 虚 s? - o?, 也 要 进行 某 种 变换 , 使 得 变 
换 过 的 统计 量 有 某 种 容易 掌握 的 分 布 . 一 些 变 换 的 统计 量 公式 和 意义 在 4.6.2 节 介 
绍 . 虽然 我 们 不 要 求 记 住 这 些 公式 , 但 对 于 理解 后 面 关 于 推断 的 章节 所 用 的 一 些 
统计 量 不 无 好 处 . 
思考 一 下 : 


1. 抽样 分 布 涉及 的 是 统计 量 的 分 布 , 我 们 要 用 统计 量 做 统计 推断 就 往往 需要 这 些 
分 布 . 比如 后 面 马上 要 讨论 的 小 概率 的 计算 (和 后 面 的 假设 检验 密切 相关 ) 就 


依赖 于 这 些 分 布 . 


2. 本 书 所 涉及 的 抽样 分 布 主要 是 前 一 节 的 X2 分 布 、 了 分 布 、t 分 布 . 但 要 注意 ,如 
村 没有 正 态 总 体 的 假定 , 或 者 中 心 极限 定理 的 应 用 , 是 不 会 有 这 些 分 布 的 . 
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4.5 用 小 概率 事件 进行 判断 


判明 一 个 事情 的 真 伪 ,需要 用 事实 说 话 . 在 统计 中 事实 总 是 来 源 于 数据 ,下 
面 看 小 概率 事件 如 何 起 作用 ， 假 定 某 药 厂 声称 该 厂 生 产 的 某 种 药品 有 60 叹 的 疗 
效 . 但 是 当 实 际 调 查 了 100 名 使 用 该 药物 的 患者 之 后 , 发 现 最 多 有 40 名 患者 服 后 
有 效 . 这 个 数据 是 否 支 持 药 三 的 说 法 呢 ? 药 厂 所 支持 的 模型 可 以 看 成 是 一 个 参 
数 p 为 0.6 的 Bernoulli 试 验 模型 ，100 名 患者 的 服药 , 实际 上 等 于 进行 了 100 次 试验 . 
这 就 是 二 项 分 布 B(100, 0.6) 模 型 .由 于 使 用 了 药 厂 的 0.6 的 成 功 概率 . 这 个 模型 是 
基于 药 厂 的 观点 的 . 我 们 可 以 基于 这 个 模型 计算 100 名 患者 中 有 少 于 或 等 于 40 名 
患者 治疗 有 效 的 概率 P(X < 40). 通过 计算 机 (及 代码 pbinom(40 ,100, .6)) 或 查 
表 , 容易 得 到 该 概率 为 0.000042. 这 说 明 , 如 果 药 厂 正 确 , 那么 只 有 40 名 患者 有 效 
这 个 事实 是 个 小 概率 事件 , 即 少 于 或 等 于 40 名 患者 有 效 的 可 能 只 有 十 万 分 之 四 多 
一 反 ， 这 样 在 药 三 的 观点 和 事实 之 间 有 了 矛盾. 是 事实 准确 还 是 药 厂 准确 呢 ? 显 
然 人 们 一 般 不 会 认为 药 厂 的 说 法 可 以 接受 . 这 样 , 就 利用 小 概率 事件 来 拒绝 了 药 厂 
的 说 法 . 这 种 用 小 概率 事件 对 假定 的 模型 进行 判断 是 后 面 将 要 介绍 的 假设 检验 的 
基础 . 
思考 一 下 : 


1. 人 们 在 看 了 上 面 的 例子 的 数据 之 后 , 可 能 会 觉 40 名 患者 服 后 有 效 , 就 完全 可 以 
否定 厂 方 所 说 的 60 嗓 有效 的 说 法 这 没有 错 . 但 是 , 不 经 过 计算 , 无 法 得 出 这 种 
概率 仅仅 约 为 十 万 分 之 四 左右 的 小 概率 结论 . 这 也 是 定量 分 析 所 做 出 的 结论 比 
定性 结论 更 强大 的 原因 . 


2. 注意 , 在 上 例 中 , 怀疑 的 是 厂 方 的 说 法 , 因此 计算 概率 也 要 以 这 种 说 法 为 基 
础 (二 项 分 布 模型 是 基于 厂 方 60% 有 效 的 说 法 ), 发 生 矛盾 , 则 说 明 厂 方 有 问题 . 


4.6 “小 结 


4.6.1 本 章 的 概括 和 公式 


这 一 章 介绍 了 概率 的 概念 以 及 得 到 概率 的 途径 . 这 包括 利用 等 可 能 事件 来 得 
到 概率 、 利 用 相对 频数 或 频率 来 近似 概率 、 主 观 概 率 等 . 还 给 出 了 概率 的 一 些 运 
算 规则 . 最 后 介绍 了 一 些 常用 离散 和 连续 变量 的 分 布 、 中 心 极限 定理 及 抽样 分 布 . 
虽然 后 面 各 章 都 涉及 分 布 和 概率 的 概念 , 但 由 于 使 用 计算 机 , 直接 计算 概率 的 机 会 
并 不 多 . 本 章 涉 及 的 公式 如 下 . 

集合 记号 : ”集合 4 和 B 的 并 记 为 4U B, 集合 4 和 B 的 交 记 为 4 B, 集 
合 4 和 B 互 补 记 为 B = A“ 或 4 = B". 在 概率 中 的 事件 就 相当 于 集合 论 中 的 
集合 . 

互补 事件 的 概率 ” P(A) + P(42) = 1, 或 者 P(4c) = 1 一 P(A), 或 
者 P(A)= 1 P(A°). 
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加 法 规则 : 
P(AUB)= P(A)+ P(B)~ P(ANB). 


特殊 情况 : 当 A4 和 B 互 斥 时 P(ANMB)=0, 所 以 P(AUB)= P(A)+ P(B). 
乘法 规则 :” 当 A 和 B 独 立时 P(A Nn B)= P(A4)P(B). 
条 件 事件 的 关系 ( 贝 叶 斯 定理 ): 
P(ANMB)= P(AIB)P(B) = P(BIA)P(A) 


P(ANB) P(ANB) 
P(A) P(B) 


如 果 A 和 BB 独立, 则 P(B) = P(B14) 及 P(4) = P(41B). 反之 让 然 . 
随机 变量 取 一 切 可 能 值 或 范围 的 概率 称 为 概率 分 布 (probability distribu- 
tion). 一 个 离散 变量 X 的 概率 分 布 由 其 可 能 取 值 zx 的 概率 p(zk) 二 P(X = zi) 来 
而 连续 变量 的 概率 分 布 由 其 取 值 范围 内 的 扣 z 的 概率 密度 函数 (probability 
density function, pdf) f(x) 来 描述 . 连续 随机 变量 在 单独 点 上 的 概率 为 零 , 但 
可 以 利用 积分 得 到 在 某 区 间 上 的 概率 . 如 果 用 XXX 表示 该 连续 随机 变量 , 那么 X 在 区 
间 (a,b) 上 的 概率 为 








P(BIA) = P(AIB) = 


Pla<X < ya 


另外 还 有 累积 分 布 国 数 (cumulative distribution function，cdf) 的 概 
念 , 简称 为 分 布 函数 . 它 是 随机 变量 小 于 或 等 于 某 数 z 的 概率 , 记 为 (xz). 对 于 具 
有 分 布 p(z4) 的 离散 变量 , 分 布 函数 
F(z)= P(X <Z) Pr) 


而 对 于 具有 分 布 密 度 f (zx) 的 连续 变量 , 分 布 函数 
F(x)= P(X <7)= / f(z)dz. 


对 应 于 样本 均值 和 样本 标准 差 等 特征 的 是 相应 的 总 体 特征 . 类 似 地 , 总 体 均 
值 ( 又 称 为 数学 期 望 ) 是 描述 总 体 的 位 置 参 数 , 而 总 体 方差 和 标准 差 描述 总 体 分 布 
的 分 散 程 度 . 
概率 分 布 为 p(xi) 的 离散 变量 X 的 总 体 均 值 (又 称 为 X 的 数学 期 望 ， 记 
为 (X)) 定 义 为 
HK = E(X)= > ZpD(ZR). 
k 


这 和 样本 均值 的 定义 类 似 , 只 不 过 权 函 数 不 是 1/n, 而 是 相应 点 的 概率 . 而 该 变量 
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的 总 体 方差 ( 记 为 Var( 义 )) 定 义 为 
22 = Var(X) = (ee 2zplan， 


k 


而 总 体 标准 差 是 方差 的 平方 根 
= VYar(] = /> (es 一 oOzp(lzn， 
kk 


概率 密度 函数 为 f(x) 的 连续 变量 X 的 总 体 均值 (又 称 为 X 的 数学 期 望 ， 记 
为 (XX)) 定 义 为 


w= BX)= / f(s)a 
而 的 冯 体 六 ( 记 为 werCaD) 定 X 为 
P= Ver = 人 -mlojdn 
而 总 体 标准 差 是 方差 的 平方 根 
~ Va ) 广 


pm 定义 为 满足 P(X < zu) < a < 
P(X < za) 的 ze， 而 w 上 侧 分 位 数 定义 为 满足 P(X > zs) < aw < P(X > 
Ta) 的 Zo. 这 些 分 位 数 一 般 并 不 一 定 唯一 , 只 有 对 于 连续 分 布 , 分 位 数 才 唯一 . 对 于 
连续 型 随机 变量 X, a 下 侧 分 位 数 为 满足 关系 P(X < zu。) = a 的 数 z。 这 里 的 a 称 
为 下 ( 左 ) 侧 尾 概 率 , 而 a 上 侧 分 位 数 (又 称 a 上 分 位 数 , 上 a 分 位 数 ) 定义 为 满足 关 
系 P(X > zu) = a 的 数 z。, 这 里 的 a 称 为 上 ( 右 ) 侧 尾 概 率 . 

随机 变量 XX 的 总 体 中 位 数 定义 为 满足 P(X < m) < 0.5 < P(X < m) 的 m. 
随机 变量 XX 的 总 体 k 百 分 位 数 定义 为 满足 P(X < gq) < k% < P(X < gq) 的 g. 如 
朱 令 a 二 km, 则 这 个 定义 也 可 以 说 成 随机 变量 X 的 总 体 a 分 位 数 为 满足 P(X < 
q) < a < P(X < gq) 的 g. 显然 ,作为 分 位 数 特例 的 总 体 中 位 数 为 50 百 分 位 数 
或 0.5 分 位 数 . 

在 具体 分 布 方面 , 我 们 首先 介绍 了 一 些 离散 变量 的 分 布 . 其 中 包括 基于 一 系列 
独立 可 重复 的 Bernoulli 试 验 的 二 项 分 布 、 描 述 有 多 个 可 能 试验 结果 的 多 项 分 布 、 
描述 一 些 事件 发 生 次 数 的 Poisson 分 布 以 及 涉及 不 放 回 抽样 的 超 几 何 分 布 . 这 些 分 
布 都 可 以 利用 公式 、 表 格 或 软件 计算 . 下 面 是 它们 的 公子 

总 体 均值 和 总 体 方差 的 一 些 性 质 : 对 于 均值 , 如 果 瓦 (X) = /六 则 对 于 任何 
常数 a 和 b, (a 关 十 0) = aB(XX) 十 b = ap 十 5b. 此 外 , 对 于 两 个 随机 变量 XX 和 Y， 
有 ElaX 十 b) = aE(X) 十 bE(Y). 如 果 关 和 YY 独立 , 则 E(XY) = E(X)E(Y). 
对 于 方差 , 如 果 Var(X) = ca 那么, Var(aX ++0) = a2Vyar(X) = a2o?. 如 
采 夭 和 独立, 则 两 个 变量 和 的 方差 满足 Var( 关 十 了) = Yar(X) 十 Var(Y). 作 
为 例子 , 如 案头 1,.…, XX 蕴 为 来 日 均 值 为 4, 方差 为 cc? 的 独立 观测 值 组 成 的 样本 , 那 


|V 
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么 样本 均值 XX = 3 X;/n 的 均值 E( 羡 ) 还 是 j, 而 方差 Var( 六 ) 为 o2/n, 标准 差 
为 o/ Vn. 显然 , 常数 的 方差 等 于 0. 

二 项 分 布 B(n,p): 下 面 p(k) 代 表 在 n 次 Bernoulli 试 验 中 成 功 的 次 数 的 概率 ， 
2 为 每 次 试验 成 功 的 概率 . 有 


也 


p(k) = (za —p)” “, k=0,1,...,n 


() 


为 二 项 式 系 数 , 按照 不 同 习惯 , 也 用 CE，Cz，C %，nC% 等 不 同 符号 表示 . 
多 项 分 布 M(n;pi,.…, pj): 用 p(mi,.…, mx) 代 表 多 项 分 布 k 种 可 能 在 n 次 试验 
中 分 别 出 现 m1,.…, mx 次 的 概率 , 而 pi,.…, pg 为 一 次 试验 时 各 种 可 能 出 现 的 概率 . 


这 里 


有 
k k 
Dm1, ..., Mr) = Py Do 2 .人 ， mi 一 n, Di = 1, 
这 里 
Nn 加 nl 
Wl, Wk ml mex! 
为 多 项 式 系 数 . 


Poisson 分 布 P(A): 参数 为 的 Poisson 分 布 变量 的 概率 分 布 为 (p(k) 表 
示 Poisson 变 量 等 于 k 的 概率 ) 
P(D = ec 
超 几 何 分 布 : 在 一 批 " 个 产品 中 , 如 果 有 mn 个 不 合格 产品 ( 即 有 ? 一 m 个 合格 产 
品 ), 那么 在 不 放 回 抽取 t 个 产品 中 有 Zz 个 不 合格 产品 的 概率 为 
(ED 
p(T) = ~ 
(9 
本 章 还 介绍 了 一 些 连续 分 布 . 其 中 包括 最 常用 的 正 态 分 布 、x? 分 布 、t 分 布 
和 F 分 布 . 其 中 后 面 三 种 是 从 正 态 分 布 导 出 的 . 
正 态 分 布 N(1,o) 的 密度 函数 为 (在 计算 机 时 代 , 真正 用 这 个 公式 来 计算 正 态 
变量 概率 的 人 已 经 不 多 了 , 这 里 介绍 它 是 因为 它 太 著名 了 ): 


k= 0,1,2.... 





T=0,1,...,t. 





1 1 2 
j (7) = -Bo 


标准 正 态 分 布 N(0,1) 为 均值 为 0(y = 0), 标准 差 为 1(c = 1) 的 正 态 分 布 , 习惯 上 ， 
标准 正 态 分 布 的 密度 函数 和 累积 分 布 函数 分 别 用 % 和 更 表示 . 
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X2 分 布 : 如 果 X1,.…，X, 互 相 独 立 , 而 且 都 是 标准 正 态 分 布 N(0, 1), 则 
2 Xi 


有 日 由 度 为 n 的 x 分布, 记 为 x?(n). 
t 分 布 : 假定 有 一 个 来 自 正 态 分 布 W(w,c) 的 样本 , 样本 标准 差 为 s, 样本 均值 
为 X, 样本 量 为 n, 那么 _ 
_ -KH 
~ s/Vn 
具有 上 自由 度 为 (2” 一 1) 的 t 分 布 t(n 一 1). 另外 一 种 定义 为 : 如 果 瑟 是 N(0, 1) 变 量 ， 
y 是 x?(n) 变 量 , 而 且 X 和 了 独立 , 那么 
Xx 
t = CVn 


VY 





为 有 nn 个 自由 度 的 t 分 布 t(n). 
F 分 布 : 如 果 环 是 xz(rm) 变 量 , Y 是 x?(n) 变 量 , 而 且 和 和 YY 独立 , 那么 
p Xm 
Y/n 
为 具有 上 自由 度 (m,n) 的 F 分 布 , 记 为 Fm,n). 
均匀 分 布 : 如 果 久 是 在 (a, 5b) 区 间 上 的 均匀 函数 , 那么 它 的 分 布 密 度 函 数 为 
l/(b—a) a<z<b, 
f(z) = 1 其 他 地 方 
统计 量 的 常用 变换 
”下 表 给 出 了 几 种 变换 , 这 些 变 换 的 表达 式 在 后 面 关 于 推断 的 章节 可 能 会 出 现 . 
表 中 各 行 的 符号 和 假定 的 意义 如 下 (序号 为 行 号 ): 


1. 对 于 一 个 正 态 变 量 X: 假定 其 总 体 均 值 为 1, 总 体 标 准 差 为 假定 的 c. 它 的 样本 
量 为 n 的 样本 均值 为 X. 


2. 对 于 一 个 正 态 变量 X: 假定 其 总 体 均值 为 1, 总体 标准 差 c 未 知 ， 它 的 样本 量 
为 n 的 样本 均值 为 又 , 样本 标准 差 为 * 


3. 对 于 一 个 正 态 变量 X: 总 体 标 准 差 为 假定 的 o. 它 的 样本 量 为 n 的 样本 标准 差 
为 s. 


4. 对 于 两 个 独立 正 态 变量 XI 和 大 。: 假定 其 总 体 均 值 分 别 为 和 j。， 而 总 体 标准 
大分 别 为 假定 的 ol1 和 oz. 它们 样本 量 分 别 为 n1 和 ns 的 样本 均值 分 别 为 苹 / 和 关 。. 


5, 对 于 两 个 独立 正 态 变量 XX 和 X: 假定 其 总 体 均 值 分 别 为 1 和 jo, 而 总 体 标准 
差 91 和 os 假定 相等 . 所 们 样本 祝 分 别 为 m3 和 ms 的 样本 均值 分 别 为 六 ,和 六 样 
本 标准 差分 别 为 s1 和 sz. 
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6. 对 于 两 个 独立 正 态 变量 X; 和 Xo2: 假定 其 总 体 均值 分 别 为 41 和 2， 而 总 体 标准 
着 ci 和 co 假定 不 相等 ， 它们 样本 量 分 别 为 nj 和 ns 的 样本 均值 分 别 为 六 | 入 ,， 
样本 标准 差分 别 为 s1! 和 s。. 


7. 对 于 两 个 独立 正 态 变量 XI 和 Xo， 总体 标 准 差 为 vo, 和 os, 样本 标准 差分 别 
为 s1 和 s。. 

8. 对 于 一 个 二 项 分 布 变量 X: n 为 样本 量 , 7 表示 假定 的 总 体 概 率 , p = z/n 为 样本 
比例 . 


9. 对 于 两 个 二 项 分 布 变量 Xi1 和 XX 样本 量 分 别 为 n1 和 no， 总 体 概率 分 别 
为 Ti 和 72. D1 一 ZT1/n1 和 Hp, 一 T2/no 分 别 为 样本 比例 . 


变换 的 统计 量 统计 量 的 分 布 性 质 


如 果 X 接近 j, 则 2 接近 0. 

如 果 关 接近 pj, 则 # 接 近 0. 

如 果 s* 接 近 o?, 则 xX? 接近 nn 一 1. 
如 六] 一 站 2 接 近 j41 一 Ha 则 2 接近 0. 











刀 Kl-X2)— (p112) 


Voi/nitod /no2 





t 一 pr 如 Xi 一 X2 接 近 1 一 42, 则 :接近 0. 

t ”一 C2 2) 如 Xi 一 鲜 2 接 近 j4 一 yz, 则 #* 接 近 0. 

丰 一 续 /和 3 一切 侣 Flni — 1,na —1) 当 s? 接近 03, s3 接近 g3 时 , 下 接近 1 
一 TREE 21 和 ra 大 时 2GZ 近 似 N(0,1)| 当 p 接 近 r 时 ，ZGF 接 近 0. 


7 一 (pl 一 p2) 一 (mL 一 T2) 
Tir) /nitno(l na) /ns 


其 中 s? 一 (ni Dt(na—Dss 2 一 51 十 32 si 十 一 52 
D nil 十 nna 一 1 71 no ni(ni—1) ns(n2—1) 


4.6.2 本章 例题 和 及 语句 说 明 


本 章 基本 没有 统计 方法 的 计算 课题 , 但 是 涉及 一 些 具体 分 布 的 概率 计算 . 在 实 
际 应 用 中 , 这 些 概率 通常 都 在 运用 程序 包 的 过 程 中 自动 计算 . 但 是 在 做 习题 和 理解 
一 些 基本 概念 方面 , 需要 通过 查 表 或 软件 来 计算 . 下 面 通过 例子 简要 说 明 如 何 通过 
累积 分 布 函数 (第 4.3.3 节 ) 得 到 这 些 概率 . 


”” 例 4.1 求 正 态 分 布 W(3,1.5) 变 量 X 在 区 间 (2,4) 中 的 概率 P(2 < X < 4). 
从 4.5 节 知道 (注意 : 连续 分 布 概率 表示 中 的 不 等 号 中 的 等 号 可 有 可 无 ,例如 
P(2<X<4)= P22<X<4)) 

P(2<X<4)=P(X<4—- P(X<2) 
所 以 只 要 知道 P(X < 4) 和 P(X < 2), 就 可 以 很 容易 得 到 P(2 < X < 4). 
在 R 中 , 用 语句 pnorm(4,3,1.5)-pnorm(2,3,1.5) 立 得 结果 0.4950149. 图 4.13 表 


大 时 ZZ 近似 NN(0, 1) 当 pi 接 近 A1, pz 接近 ns 时 , 2 接近 0. 
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现 了 N(3,1.5) 分 布 密度 曲线 下 面 在 区 间 (2,4) 处 的 面积 等 于 密度 曲线 在 区 
间 ( 一 00,4) 处 曲线 下 面 的 面积 P(X < 4) 和 在 区 间 ( 一 00,2) 处 下 面 的 面积 P(X < 
2 2 


P(2<X<4) for N(3,1.5) Variable X 








Density of N(3,1.5) 























4.13 正 态 N(3,1.5) 变 量 X 的 概率 P(2 <X <4) = P(X <4) 一 P(X < 2) 示 意图 . 


注 : 在 传统 统计 书 中 不 可 能 有 正 态 分 布 族 的 所 有 成 员 的 累积 分 布 函 数 表 , 而 
仅仅 有 标准 正 态 分 布 表 . 为 了 使 用 标准 正 态 分 布 表 , 先 把 变量 按照 公子 
pi 一 
变换 成 标准 正 态 变量 , 这 里 2 通常 表示 标准 正 态 变量 , /为 X 变 量 分 布 的 均值 ， 
0 为 六 变量 分 布 的 标准 差 . 然后 把 公式 做 相应 的 改动 : 
Pl(2<X<4)= P(X<4)- P(X <2) 
a 


全 加 OC 
光 二 二 2—3 

-=P (z< ) -7 (z< ) 

= P(Z < 0.6666667) — P(Z < —0.6666667) 

= $(0.6666667) — 更 (一 0.6666667) 

= 0.7475075 — 0.2524925 = 0.4950149 
这 里 符号 中 专门 用 来 表示 标准 正 态 累 积分 布 注 数 , 它 的 部 分 值 可 以 在 传统 的 统计 
教科 书 的 附 表 中 查 到 . 可 以 看 出 , 用 统计 软件 比 查 分 布 表 来 计算 要 简单 得 多 . 事实 
上 , 上 面 分 步 的 计算 结果 也 是 用 及 软件 算出 来 的 , 查 表 不 可 能 得 到 这 么 多 位 有 效 数 
字 . 注意 : 本 书 不 刻意 对 计算 机 输出 的 数字 做 四 售 五 入 . 


例 4.2 假定 有 80% 的 人 喜欢 菜 项 产品 , 如 果 随 机 访问 7 个 人 , 则 至 少 3 个 人 喜欢 
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该 产品 的 概率 是 多 少 ? 这 实际 上 是 求 B(7,0.80) 二 项 分 布 变量 X 等 于 3 到 7 的 概率 ， 
即 XX 大 于 或 等 于 3 的 概率 (注意 , 和 连续 变量 不 同 , 对 于 离散 随机 变量 , 不 等 式 中 等 
于 号 绝 不 能 可 有 可 无 ! ) 


P(X>3)= P(3<X<7)= > p(k) + p(4) +p(5) + p(6) + p(7) 


~ P(X <7)— P(X 3 =1- P(X <2). 


注意 P(X < 7) = 1. 因此 必须 找到 P(X < 2). 

使 用 R 语 名 pbinom(2,7,.8,1low=F) 或 pbinom(7,7,.8)-pbinom(2,7,.8) 立 
刻 得 到 结果 0.995328. 

类 似 地 如 果 问 题 是 :“ 随 机 访问 7 人 , 最 多 3 个 人 喜欢 该 产品 的 概率 是 多 少 ? ”这 
等 于 求 P(X < 3). 在 及 中 , 用 语句 pbinom(3,7, .8) 立 得 结果 0.033344. 


例 4.3 对 于 尾 概率 a = 0.025, 求 标 准 正 态 zs。 和 t(3) 分 布 的 t。， 这 当然 可 以 从 
分 布 表 查 到 . 但 在 及 中 , 用 语句 qnorm(0.025， low=F) 和 qt (0.025,3,low=F), 立 
得 z0.025 二 1.959964 及 t0 025 二 3.182446. 这 属于 RR 中 的 众多 道 函 数 之 一 . 


4.6.3 生成 本 章 图 形 的 R 代 码 
图 4.1 是 用 下 面 的 R 代 码 绘 出 : 


par (mfrow=c (3,3)) 
for(li in seq(.1,.9,.1)){barplot (dbinom(0:5,5,1i)) 
title(main=(substitute(p == that, list(that = i))))} 


图 4.2 是 用 下 面 代 码 生 成 的 : 


plot (dpois(0:20,3),type="b",pch=15,xlab="k",yla ="p(kK)") 
points(dpois(0:20,6) ,type='"b" ,pch=17) 
points(dpois(0:20,10) ,type="b" ,pch=19) 
text(c(3.5,6.5,11.5),c(.18,.14,.09) ,c(expression(1ambda==3) ， 
expression(lambda==6) ,expression(lambda==10))) 


图 4.3 是 用 下 面 R 代 码 实 现 的 : 


x=rnorm(100000) 

par (mfrow=c (2 ,2) ) 

hist(x,14,col="blue" ,axes =FALSE,xlab="" ,ylab="", 
main="Histogram 1") 

hist(x,50,col="blue" ,axes =FALSE,xlab="",ylab="", 
main="Histogram 2") 

hist(x,100,col="blue",axes =FALSE,xlab="",ylab="", 
main="Histogram 3") 

z=seq(-4,4,1=1000) 
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plot(z,dnorm(z) ,type="l1",axes = FALSE,xlab="",ylab="", 
main="Density") 
polygon(c(z[z>-4]),c(dnorm(c(z[z>-4]))), col="blue'") 


图 4.4 是 用 下 和 面 R 代 码 实 现 的 : 


x=seq(-5,5, .001) 
plot(x,dnorm(x,-2,.5),type="1",1ty=2,xlab="",ylab="") 
lines(x,dnorm(x)); text(c(~-2,0),c(.3,.2),c("N(-2,0.5)","N(0,1)")) 


图 4.5 是 用 下 面 代码 实现 的 : 


x=c(seq(-4,4,1length=1000)) 
rl=0.5i1;,r2=1.57;x2=c(ri,ri,x[x<r2&x>r1] ,r2,r2) 
y2=c (0,dnorm(c(ri,x[x<r2&x>r1] ,r2)) ,0) 
plot(x,dnorm(x) ,type="1",ylab=expression (phi (x))) 
abline (h=0) ;polygon(x2,y2,col="grey") 


图 4.6 是 由 下 面 RR 代码 实现 的 : 


x=seq(-4,4,length=1000) ;y=dnorm(x) 
plot(x,y,type="l1", ylab="Density of N(0,1)");abline(0,0) 
r=1.645;polygon(c(r,r,x[x>r]),c(0,dnorm(c(r,x[x>r]))),col="grey') 
text(c(0,2.8,1.6),c(.18,.03,.01),c(expression(P(Z<z{0.05])==0.95), 
expression(P(Z>z[0.05])==0.05), expression(z[0.05]==1.645))) 
title(expression(paste("Tail Probability for N(0,1) ", 

(alpha==0 .05)))) 


图 4.7 是 由 下 面 及 代码 实现 的 : 


x=seq(0,10,1=1000) ;yi=dchisq(x,2);y2=dchisq(x,3);y3=dchisq(x,5); 
plot(x,yl1,type="1" ,xlab="",ylab="") 
lines(x,y2,1ty=2) ;lines (x,y3,1ty=3) 
text(c(0,1,7),c(.35,.2,.1),c(expression(chi*2(2)), 
expression(chi*2(3)),expression(chi~2(5)))) 


图 4.8 是 由 下 面 R 代 码 实 现 的 : 


x=seq(-4,4,1=1000) ;yl=dnorm(x) ;y2=dt (x, 1) 

plot (x, yl,type="]1",xlab="",ylab="") 

lines(x,y2,1ty=2) ;text(c(0,0),c(.2,.35),c("N(0,1)","t(1)")) 
图 4.9 是 由 下 面 R 代 码 实现 的 : 

x=seq(-6,6,1length=1000) ;y=dt (x ,2) 

ri=2.92;r2=6;x2=c (ri ,ri,x[x<r2&x>r1] ,r2,r2) 

y2=c(0,dt(c(ri,x[x<r2&x>r1] ,r2) ,2) ,0) 

plot(x,y,type="]", ylab="Density of t(2)",xlim=c(-5,5)) 
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abline(h=0) ;polygon (x2,y2,c0ol="yellow") 

title(expression( 

paste("Tail Probability for t(2) ", (alpha==0.05)))) 
text(c(0,4,3),c(.15, .03,.01),c(expression(P(T<t [0.05])==0.95), 
expression(P(T>t [0.05] )==0.05), expression(t[0.05]==2.92))) 


图 4.10 是 由 下 面 有 代码 实现 的 : 


x=seq(0,8,1=1000) ;yi=df (x,3,20);y2=df (x,50,20) 
plot (x,y2,type="1",xlab="",ylab="") 
lines(x,yl,1lty=2) 
text(c(0.1,1.8),c(0.75,1),c("F(3,20)","F(50,20)")) 


图 4.11 是 由 下 面 RR 代码 实现 的 : 


plot(c(-.5,0,1,1.5),c(0,1,0,0),type="s",xlab="" ,ylab="") 
abline (h=0,1ty=2) 


图 4.12 是 由 下 面 R 代 码 实现 的 : 


d= c(1,3,10,100);par (mfrow=c(2,2));for(i in d)t 

z=NULL; for(j in 1:600)z=c(z,mean(runif (i))): 

hist(z,pr=T,main=substitute(n==that ,list (that=i)), 
xlim=c(0,1),col=4)} 


图 4.13 是 由 下 面 BR 代 码 实 现 的 : 


x=c(seq(-2,8,1length=1000)) ;y=dnorm(x,3,1.5) 
r2=2;r1l=-4;r3=4;x2=c (ri,r1,x[x<r2&x>r1] ,r2,r2) 
y2=c(O0,dnorm(c(ri,x[x<r2&x>r1] ,r2) ,3,1.5) ,0) 
x3=c(ri,ri,x[x<r3&x>r1] ,r3,r3) 
y3=c(0,dnorm(c(ri,x[x<r3&x>r1] ,r2),3,1.5),0) 

plot (x,y,type="1",xlab="X Value'",ylab='"Density of N(3,1.5)") 
title("P(2<X<4) for N(3,1.5) Variable X");abline(0,0) 
polygon(x3,y3,col="grey'");polygon(x2,y2,col="yellow'") 

text (c(1,2,2.5,3,4.5),c(.02,.25,.01,.15,.01),c("P(X<2)", 
"POX<4)", "x=2","P(2<X<4)", "x=4")) 


4.7 习题 


1. 如 有 果 一 名 嫌疑 人 的 血液 和 犯罪 现场 留 下 的 血液 按照 DNA 分 析 只 有 十 万 分 之 一 
的 可 能 不 一 样 . 你 如 何 判断 和 解释 ? 


2. 如 果 有 百 分 之 五 的 人 是 左 撒 子 , 而 你 和 你 兄弟 都 是 左 撤 子 . 那么 你 和 你 兄弟 都 
是 左 撤 子 这 样 事 件 的 概率 是 不 是 0.05 x 0.05 = 0.0025? 为 什么 ? 


Ce 


心 
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a 


一 
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. 一 辆 汽车 的 前 灯 在 一 年 内 失效 的 概率 为 0.2, 而 该 车 的 电池 在 一 年 中 失效 的 概率 


为 0.1. 那么 这 两 项 同时 失效 的 概率 是 不 是 0.2 x 0.1 = 0.02? 如 果 电 池 是 另外 
车 上 的 , 答案 有 所 不 同 吗 ? 请 用 常识 判断 . 


在 5 个 人 中 只 有 一 张 球 票 . 于 是 抽签 决定 谁 去 . 假定 抽签 是 随机 的 . 机 会 应 该 均 
等 . 但 是 你 是 最 后 一 个 抽 , 如 果 前 面 没 有 人 抽 到 , 你 的 机 会 不 就 是 百分之百 了 
吗 ” 而 如 果 前 面 有 人 抽 到 , 你 的 机 会 不 就 是 0 了 吗 ? 这 样 , 你 还 没有 抽 , 命运 就 
已 经 决定 . 这 公平 吗 ? 


, 每 天 你 都 会 在 上 班 路 上 遇 到 一 些 从 未 见 过 的 人 , 因此 , 这 显然 是 小 概率 事件 . 但 


你 又 想 ,“ 天 天 都 发 生 的 事情 会 是 小 概率 事件 吗 ?" 请 和 同学 讨论 这 个 问题 . 


. 如 果 由 你 从 0 到 9 中 随机 抽取 一 个 数 算是 一 个 试验 , 重复 这 样 的 试验 10 次 , 那么 ， 


得 到 0147802493 和 得 到 9999999999 的 概率 是 否 一 样 ? 无 论 你 怎么 回答 , 请 给 
出 这 两 个 事件 的 概率 . 


. 假定 p = 0.1 是 每 次 Bernoulli 试 验 中 成 功 的 概率 . 使 用 计算 机 或 者 适当 的 分 布 


表 计 算 ( 如 果 你 愿意 , 也 可 以 用 公式 ) 

(a) 在 15 次 试验 中 至 少 3 次 成 功 的 概率 ; 

(b) 在 10 次 试验 中 最 多 1 次 成 功 的 概率 ; 

(c) 在 12 次 试验 中 , 成 功 次 数 至 少 3 次 而 最 多 5 次 的 概率 . 
假定 六 为 N (2,2) 分 布 , 使 用 计算 机 或 者 适当 的 分 布 表 计算 (如 果 你 愿意 , 也 可 以 
用 公式 ) 

(a) X 大 于 8 的 概率 ; 

(b) 和 小 于 0 的 概率 ; 

(c) 和 在 7 和 8 之 间 的 概率 ; 

(d) X 在 1 和 2 之 间 的 概率 

(e) X 在 -4 和 8 之 间 的 概率 . 
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第 五 章 ”简单 统计 推断 : 总 体 参数 的 估计 


人 们 每 时 每 刻 都 在 做 估计 . 出 门 根据 天 色 云 量 等 估计 今天 的 天 气 , 根据 婴儿 的 
峰 声 和 面色 判断 其 冷 热 和 是 否 饥饿 , 根据 望 闻 间 切 来 估计 病人 的 病情 , 根据 外 表 估 
计 一 个 人 的 喘 高 体重 , 根据 营业 数据 等 估计 一 个 公司 的 业绩 等 等 估计 就 是 根据 
你 拥有 的 信息 来 对 现实 世界 进行 某 种 判断 . 统计 中 的 估计 也 不 例外 , 它 是 根据 数 
据 做 出 的 . 

举例 说 ,人 们 想 知道 到 底 有 多 大 比例 的 北京 人 同意 北京 大 力 发 展 轨道 交通 , 由 
于 不 大 可 能 询问 所 有 的 一 千 多 万 北京 市 民 , 人 们 只 好 进行 抽样 调查 以 得 到 样本 ， 
并 用 样本 中 同意 发 展 轨道 交通 的 比例 来 估计 真实 的 比例 .从 不 同 的 样本 得 到 的 
结论 也 不 会 完全 一 样 . 昌 然 真实 的 比例 在 这 种 抽样 过 程 中 永远 也 不 知道 , 但 有 可 
能 知道 估计 出 来 的 比例 和 真实 的 比例 大 致 差 多 少 ， 从 数据 得 到 关于 总 体 参 数 的 
一 些 绪论 的 过 程 就 叫做 统计 推断 (statistical inference). 这 个 调查 例子 是 估计 
总 体 参数 ( 某 种 意见 的 比例 ) 的 一 个 过 程 ， 估计 (estimation) 是 统计 推断 的 重要 
内 容 之 一 . 统计 推断 的 另 一 个 主要 内 容 是 下 一 章 要 引进 的 假设 检验 (hypothesis 
testing). 


5.1 用 估计 量 估计 总 体 参数 


总 体 代表 人 们 所 关心 的 那 部 分 现实 世界 . 而 在 利用 样本 中 的 信息 来 对 总 体 参 
数 进行 推断 之 前 , 人 们 往往 对 代表 总 体 的 变量 假定 了 分 布 族 . 比如 假定 某 特定 人 
群 的 身高 属于 正 态 分 布 族 , 或 者 在 抽样 调查 时 对 某 个 观点 认同 与 否 假定 了 二 项 分 
布 族 等 等 . 这 些 模 型 假定 基本 上 是 根据 经 验 而 得 , 所 以 仅仅 是 对 现实 世界 的 一 个 
近似 . 在 假定 了 总 体 分 布 族 之 后 , 进一步 对 总 体 的 认识 就 是 要 在 这 个 分 布 族 中 选 
择 一 个 与 人 们 所 关心 的 问题 有 关 的 具体 分 布 . 由 于 分 布 族 成 员 是 由 参数 确定 的 , 如 
果 能 够 估计 出 参数 , 对 总 体 的 具体 分 布 就 知道 得 差不多 了 . 

哪些 是 分 布 的 参数 呢 ? 一些 常见 的 参数 包括 总 体 均 值 ()， 总 体 标准 
差 (C) 和 (Bernoulli 试 验 中 ) 成 功 概 率 2p 等 (总 体 中 含有 某 种 特征 的 个 体 之 比例 )， 正 
态 分 布 族 中 的 成 员 被 (总 体 ) 均 值 和 标准 差 完 全 确定 , Bernoulli 分 布 族 的 成 员 被 概 
率 ( 或 比例 )p 完 全 决定 . 因此 如 果 能 够 对 这 些 参数 进行 估计 , 总 体 分 布 也 就 估计 出 
来 了 . 

佑 计 当 然 要 根据 从 总 体 所 抽取 的 样本 来 确定 . 前 面 提 到 过 , 样本 的 (不 包含 未 
知 总 体 参 数 的 ) 函 数 称 为 统计 量 , 而 用 于 估计 的 统计 量 称 为 估计 量 (estimator). 
由 于 一 个 统计 量 对 于 不 同 的 样本 取 值 不 同 , 所 以 , 估计 量 也 是 随机 变量 , 并 有 其 分 
布 . 当然 , 如 果 样 本 已 经 得 到 , 把 数据 代入 之 后 , 估计 量 就 有 了 一 个 数值 , 也 就 不 是 
随机 的 了 , 这 个 数字 称 为 该 估计 量 的 一 个 实现 (realization) 或 取 值 , 也 称 为 一 个 
估计 值 (estimate). 

这 里 介绍 两 种 估计 , 一 种 是 点 估计 (point estimation), 也 就 是 用 估计 量 的 
实现 值 来 近似 相应 的 总 体 参数 . 另 一 种 是 区 间 估 计 (interval estimation), 它 是 
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包括 估计 量 在 内 (有 时 是 以 佑 计量 为 中 心 ) 的 一 个 区 间 , 该 区 间 被 认为 很 可 能 包含 
总 体 参数 .后 信 计 给 出 一 个 数字 , 用 起 来 很 方便 , 而 区 间 估 计 给 出 一 个 区 间 , 说 起 
来 留 有 余地 , 不 像 点 估计 那么 绝对 . 


思考 一 下 : 


1. 人 们 往往 假定 茶 感 兴趣 的 总 体 有 某 种 分 布 , 然后 通过 从 这 个 总 体 抽出 来 的 样本 
来 得 到 这 个 总 体 分 布 参数 的 性 质 , 这 就 是 统计 推断 中 的 估计 . 然而 , 并 不 是 这 
些 关于 总 体 的 假定 都 有 道理 , 因此 , 统计 中 还 有 一 些 判断 这 些 总 体 的 近似 分 布 
的 方法 . 


2. 现实 世界 大 多 数 总 体 的 实际 分 布 是 不 可 能 知道 的 , 更 不 可 能 仅仅 限于 人 类 所 掌 
握 的 少数 可 以 用 数学 语言 表达 出 来 的 那些 ， 人 类 所 能 够 希望 的 是 某 些 已 知 的 
概率 分 布 可 以 对 某 些 实际 总 体 有 和 较 好 的 近似 而 已 . 


3. 人 们 根本 不 可 能 根据 数据 来 证 明 该 数据 来 自 于 哪个 总 体 , 但 可 以 收集 证 据 来 试 
图 否定 数据 属于 某 个 总 体 ， 如 果 和 否定 不 了 , 最 多 只 能 够 说 , 没有 证 据 否 定 该 数 
据 来 源 于 该 总 体 . 第 六 章 的 假设 检验 就 反映 了 这 种 科学 的 否定 式 思 维 方法 . 


5.2 ”点 估计 


用 什么 样 的 佑 计量 来 估计 参数 呢 ? 实际 上 没有 硬性 限制 . 任何 统计 量 , 只 要 
人们 觉得 合适 就 可 以 当成 估计 量 . 当然 , 统计 学 家 想 出 了 许多 标准 来 衡量 一 个 估 
计量 的 好 坏 . 每 个 标准 一 般 都 仅 反 映 估计 量 的 某 个 方面 . 这 样 就 出 现 了 按照 这 些 
标准 定义 的 各 种 名 目的 估计 量 . 另 一 些 估计 量 则 是 由 它们 的 计算 方式 来 命名 的 . 
最 常用 的 佑 计量 就 是 大 家 熟悉 的 样本 均值 (X )、 样 本 标准 差 (s) 和 (Bernoulli 试 验 
的 ) 成 功 比 例 (z/n), 人 们 用 它们 来 分 别 估计 总 体 均值 (jy)、 总 体 标准 差 (o) 和 成 功 
概率 (或 总 体 中 的 比例 )p， 这 些 在 前 面 都 已 经 介绍 过 , 大 家 也 知道 如 何 通 过 计算 
机 (或 公式 ) 来 计算 它们 . 

那么 , 什么 是 好 估计 量 的 标准 呢 ? 一 种 统计 量 称 为 无 偏 估计 量 (unbiased 
estimator). 所 谓 的 无 偏 性 (unbiasedness) 就 是 : 虽然 每 个 样本 产生 的 估计 量 
的 取 值 不 一 定 等 于 参数 , 但 当 抽 取 大 量 样本 时 , 那些 样本 产生 的 估计 量 的 均值 会 接 
近 真 正 要 估计 的 假定 分 布 的 参数 . 严格 说 来 , 如 果 估计 量 的 数学 期 望 等 于 欲 估计 
的 总 体 参 数 , 则 该 估计 量 称 为 该 参数 的 无 偏 估计 量 . 注意 , 由 于 一 般 仅 仅 抽取 一 个 
样本 , 并 且 用 该 样本 的 这 个 估计 量 的 实现 来 估计 对 应 的 参数 ， 人 们 并 不 知道 这 个 
估计 值 和 要 估计 的 参数 差 多 少 . 因此 , 无 偏 性 仅仅 是 非常 多 次 重复 抽样 时 的 一 个 
渐 近 概念 . 随机 样本 产生 的 样本 均值 、 样 本 标准 差 和 Bernoulli 试 验 的 成 功 比例 分 
别 都 是 相应 的 总 体 均 值 、 总 体 标准 差 和 总 体 比例 的 无 偏 估计 . 在 无 偏 估 计量 的 类 
中 , 人 们 还 希望 寻找 方差 最 小 的 估计 量 , 称 为 最 小 方差 无 偏 估计 量 . 这 是 因为 方差 
小 说 明 反 复 抽 样 产生 的 许多 估计 值 差 别 不 大 , 因此 更 加 精确 . 评价 一 个 统计 量 好 
坏 的 标准 很 多 , 而 且 许多 都 涉及 一 些 大 样本 的 极限 性 质 . 我 们 不 想 在 这 里 涉及 太 
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多 此 方面 的 细节 ， 
作为 最 小 方差 无 偏 估计 的 描述 性 例子 , 假定 Xi, …,Xn (2 > 2) 为 来 自 一 个 总 
体 的 独立 随机 样本 , 这 些 观测 值 互 相 独 立 , 那么 , 对 于 总 体 均 值 / 的 无 偏 估 计 就 有 
很 多 . 比如 下 面 的 统计 量 都 是 无 偏 估计 ', 它们 的 期 望都 是 /. 
X 一 =》 六 (Xi 十 XX,)/2, 3X 十 37 Xl, 


?一 1 


但 是 , 他 们 的 标准 差 不 同 , 第 一 个 是 c/Vm, 第 二 个 是 rc/V2, 第 三 个 是 V5/9c, 而 
最 后 一 个 是 o. 显然 尺 的 标准 差 最 小 , 当然 方差 也 最 小 . 


思考 一 下 : 


1. 日 常生 活 中 有 许多 估计 , 有 些 类 似 于 点 估计 . 比如 , 人 们 会 说 某 些 商店 贵 , 某 些 
商店 便宜 , 这 肯定 不 是 指 一 两 个 商品 . 请 讨论 人 们 可 能 如 何 思 考 这 个 问题 . 


2. 举例 说 明 你 可 以 想象 的 点 估计 的 应 用 . 


3. 合计 的 精确 性 (如 无 偏 性 和 最 小 方差 性 等 等 ) 仅 仅 是 对 人 们 所 猜想 的 模型 (或 总 
体 ) 而 言 , 但 模型 本 身 和 现实 世界 的 差距 就 不 得 而 知 了 . 因此 , 任何 推断 的 精确 
性 都 无 法 弥补 一 个 拙劣 猜想 的 模型 所 造成 的 与 实际 问题 之 间 的 巨大 偏差， 





5.3 ”区间 估计 


当 描 述 一 个 人 的 体重 时 , 你 一 般 可 能 不 会 说 这 个 人 是 76.45 公 斤 , 而 说 这 个 人 
是 七 八 十 公斤 , 或 者 是 在 70 公 斤 到 80 公 斤 之 间 . 你 提供 的 这 个 范围 就 是 某 种 区 间 
估计 . 在 抽样 调 俘 例 子 中 也 常用 捕 估 计 加 区 间 估 计 的 说 法 . 比如 , 为 了 估计 某 候 
选 人 在 选民 中 的 支持 率 ( 即 总 体 比 例 p), 调查 机 构 的 民意 测验 可 能 会 说 , 该 候选 人 
的 “支持 率 为 75 辑 , 误差 是 土 3%, 管 信和 度 为 95%”. 这 种 说 法 意味 着 下 面 三 点 : 


“1. 样本 中 的 支持 率 为 75%, 这 是 用 样本 比例 作为 对 总 体 比例 的 点 估计 . 
2. 估计 范围 为 75% 土 3%( 土 3% 的 误差 ), 即 区 间 (72%,78%) 


3. 如 果 用 类 似 的 方式 , 重复 抽取 大 量 ( 样 本 量 相 同 的 ) 样 本 时 , 产生 的 大 量 类 似 区 
闻 中 有 些 会 覆盖 真正 的 p, 而 有 些 不 会 , 但 这 些 区 间 中 大 约 有 95% 会 履 盖 真正 的 
总 体 比 例 . 

这 样 得 到 的 区 间 被 称 为 总 体 比 例 p 的 置信 和 度 (confidence level) 为 95% 的 置 

信 区 间 (confidence interval). 这 里 的 置信 度 又 称 置 信 水 平 或 置信 系数 . 

显然 置信 度 的 概念 又 是 大 量 重 复 抽样 时 的 一 个 渐 近 概念 . 因此 ,“ 目 前 得 到 的 

区 间 ( 比 如 上 面 的 75% 土 3%) 以 概率 0.95 履 盖 真正 的 比例 p” 是 个 错误 的 说 法 . 这 里 

“有 兴趣 的 读者 可 参看 4.6 节 的 总 体 均值 和 方差 的 性 质 . 
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的 区 间 (72%, 78%) 是 固定 的 , 而 总 体 比 例 p 也 是 固定 的 值 , 只 不 过 未 知 而 已 . 因此 
只 有 两 种 可 能 : 或 者 该 区 间 包 含 总 体 比 例 , 或 者 不 包含 , 这 当中 没有 任何 概率 可 言 . 
至 于 区 间 (72%, 78%) 是 否 履 盖 真 实 比 例 , 除非 一 个 不 漏 地 调查 所 有 选民 , 否则 永 
远 也 无 法 知道 事实 上 , 本 书 涉及 的 置信 区 间 ( 或 其 上 下 界 ) 都 是 由 统计 量 来 确定 
的 , 依 样本 而 变 , 是 随机 变量 ， 因 此 , 构造 置信 和 度 100(1 一 a)% 置 信 区 间 的 随机 区 
闻 则 以 1 一 a 的 概率 覆盖 待 估计 的 参数 , 但 该 区 间 相 应 于 一 个 样本 的 实现 值 就 是 固 
定 的 了 , 无 法 知道 其 是 否 真正 覆盖 需要 估计 的 参数 . 

在 用 语 上 ， 人 们 喜欢 用 哆 时 的 符号 100(1 一 a)% 来 表示 置信 和 度 的 记号 . 因 
此 95% 和 置信 区 间 相 当 于 a = 0.05 的 情况 . 当然 , 这 可 能 只 是 西方 人 把 百 分 
号 名 (percentage) 作 为 名 词 的 习惯 而 已 . 对 于 中 国 读者 , 95 色 和 0.95 或 者 1 ~ 0.05 都 
是 很 目 然 的 同 义 语 . 现在 中 国 (包括 官方 ) 也 已 经 学 会 用 “ 百 分 乓 ”(%) 这 个 名 词 ( 量 
词 ) 了 . 在 英文 中 , 置信 区 间 的 上 界 ( 或 上 限 , 即 区 间 的 左边 界 ) 称 为 upper bound,， 
下 界 ( 或 下 限 ) 称 为 lower bound. 


5.3.1 一 个 正 态 总 体 均值 .的 区 间 估计 


刚才 所 涉及 例子 是 关于 总 体 比例 的 置信 区 间 , 本 章 后 面 还 要 给 出 计算 公式 . 
除了 比例 之 外 , 还 可 以 对 其 他 参数 , 例如 总 体 均 值 构造 置信 区 间 . 下 面 看 一 个 数值 
例子 . 


例 5.1 (数据 : noodle.txt) 某 厂 家 生产 的 挂面 包装 上 写 明 "“ 兆 含量 450 克 ”. 
在 用 天 平 称 量 了 商场 中 的 48 包 挂面 之 后 ， 得 到 样本 量 为 48 的 关于 挂面 重量 (单位 : 
死 ) 的 一 个 样本 : 
449.5 461.1 457.5 444.7 456.1 454.7 441.5 446.0 454.9 446.2 457.3 446 .1 
456.7 451.4 452.5 452.4 442.0 452.1 452.8 442.9 449.8 452.4 458.5 442 .7 
447.9 450.5 448.3 451.4 449.7 446.7 441.7 455.6 442.9 451.3 452.9 457 .2 
448.5 444.5 443.1 442.3 439.6 446.5 447.2 445.8 449.4 441.6 444.7 441 .4 

这 里 假定 , 挂面 重量 所 代表 的 总 体 分 布 服 从 正 态 分 布 . 利用 计算 机 , 可 以 很 容 
久 地 得 到 挂面 重量 的 样本 均值 及 总 体 均值 的 置信 区 间 等 . 

用 下 面 Ri 语句 可 以 很 容易 得 到 关于 该 数据 的 各 种 常用 统计 量 : 
weight=scan("noodle.txt") # 谈 入 数据 
summary (weight) # 输 出 均值 ,中 位 数 , 极 大 极 小 值 ,上 下 四 分 位 点 
t.test(weight ,con=.95)$con# 输 出 95% 置 信 区 间 

输出 的 样本 均值 等 于 449.01, 而 总 体 均值 的 95% 置 信 区 间 为 (447.41, 450.61). 
这 个 置信 区 间 是 根据 公子 。 

5 二 te- 万 

计算 出 来 的 , 这 里 ?是 样本 量 , z 是 样本 均值 的 实现 值 , 如 /2? 为 自由 度 为 mn 一 1 的 t 分 
布 的 上 a/2 分 位 点 , s 是 样本 标准 差 . 当然 ， 根本 不 用 麻烦 地 代 公 式 手工 计算 (包括 
碍 表 求 如 jz), 用 一 句 计 算 机 代码 很 容易 得 到 结果 . 
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图 5.1 展 示 了 一 个 模拟 结果 , 描述 了 从 一 个 正 态 总 体 抽样 得 到 的 各 种 样本 , 在 
不 同 置信 和 度 , 不 同样 本 量 的 情况 下 关于 总 体 均 值 署 信 区 间 长 短 和 覆盖 的 情况 . 这 
里 虚线 为 “真实 ”的 均值 . 可 以 看 出 对 于 同样 的 样本 量 ( 这 里 分 别 是 n = 50 或 mw = 
20), 置信 和 度 的 增加 导致 区 间 变 长 . 对 于 同样 的 置信 和 度 ( 这 里 是 0.95 或 0.60), 样本 量 
的 增加 导致 区 间 变 短 . 而 无 论 样本 量 多 少 , 显然 置信 和 度 大 的 , 覆盖 真实 总 体 均 值 的 
区 间 比 例 要 大 些 . 

















(c) n=50, 1-Q=0.6 (d) n=20, 1—-&=0.6 
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图 5.1 不 同样 本 量 和 不 同 置信 度 的 置信 区 间 的 长 短 和 覆盖 状况 . 


5.3.2 ”两 个 正 态 总 体 均 值 之 差 j1 一 102 的 区 间 估 计 


人 们 不 仅 可 以 构造 一 个 总 体 均 值 (或 比例 ) 的 置信 区 间 , 还 可 以 构造 两 个 总 体 
均值 (或 比例 ) 之 差 的 置信 区 间 . 比如 , 希望 知道 两 个 地 区 学 生成 绩 的 差异 , 可 以 建 
造 两 个 地 区 成 绩 均值 之 差 /a 一 /az 的 置信 区 间 . 如 果 想 要 比较 一 个 候选 人 在 不 同 阶 
段 支 持 率 的 差异 , 那 就 可 以 构造 两 个 比例 之 差 pl 一 pz 的 置信 区 间 等 . 下 面 再 看 一 
个 例子 . 


例 5.2 (数据 : expend.txt) 这 是 我 国 两 个 地 区 的 一 些 城市 2003 年 的 城镇 
家 庭 人 均 消 费 性 支出 (单位 : 元 ) 数 据 ， 这 里 , 假定 这 种 支出 服从 正 态 分 布 . 在 
数据 中 (无 论 哪 种 形式 ) 收 入 是 一 列 , 变量 名 为 expend, 而 区 域 为 男 一 列 , 变量 名 
为 area( 用 1、2 表 示 两 个 地 区 ). 


(a) 希望 要 分 别 得 到 这 两 个 总 体 均值 和 标准 差 的 点 估计 ( 即 样本 均值 和 样本 标准 
差 ) 和 各 自 总 体 均值 的 95% 置 信 区 间 . 利用 了 R 语 名 


w=read.table("expend.txt" ,header=T)# 读 入 数据 
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x=wWLw[,2]==1,1] ;y=w[w[,2]==2,1] # 分 开 两 个 区 域 
mean(x) ;sd(x) ;mean(y) ;sd(y)# 得 到 各 自 的 均值 和 标准 差 : 


作为 两 个 总 体 均 值 估计 量 的 样本 均值 分 别 为 4562.53 和 5413.72, 而 样本 标准 
差分 别 为 599.831 和 785.121. 


(b) 求 两 个 均值 兰 态 -AM 的 点 估计 和 95 吕 置信 区 间 . 可 用 下 面 语句 得 到 可 得 到 均 
值 差 的 置信 区 间 : 


mean(x) -mean(y)# 均 值 差 的 估计 
t.test(x,y)$conf 


两 个 总 体 均 值 差 jp 一 jw 的 估计 为 -851.1928，ji 一 jw 的 95% 置 信和 区间 
为 (一 1330.8755, 一 371.5101)， 注 意 , 这 个 结果 假定 了 两 个 区 域 数 据 的 方差 
不 等 . 如果 假定 两 个 区 域 数据 方差 相等 , 则 用 (增加 选项 “var=T”) 代 三 


t.test(x,y,var=T) $conf 


得 到 两 个 总 体 均 值 差 Wi 一 12 的 95% 置 信和 区间 为 (一 1333.8228, 一 368.5629). 
如 何 判 断 方差 是 否 相 等 呢 ? 这 需要 用 下 一 章 将 讲 到 的 检验 ， 这 可 以 
用 RR 语句 var .test (x,y)$p.value 实 行 , 得 到 一 个 p 值 (下 一 章 介 绍 ),， 这 里 
是 0.2880653. 如 果 p 值 很 小 (一 般 认为 小 于 0.05, 但 不 是 绝对 的 ), 称 为 显著 ， 
认为 方差 不 相等 . 这 里 的 p 值 并 不 小 , 所 以 , 没有 证 据说 明 方 差 不 相 等 , 但 绝对 
不 等 于 证 明了 方差 相等 . 


思考 一 下 : 


1. 上 面 的 输出 中 , 必须 先 检验 一 下 方差 , 再 在 两 行 中 挑选 一 行 看 结果 , 有 些 麻烦 
实际 上 , 如 时 相信 数据 ,直接 用 根据 数据 中 提供 的 信息 而 建立 的 第 二 行 结 果 ， 
也 未 尝 不 可 . 结果 差 不 了 多 少 . 但 是 由 于 这 里 第 一 行 假定 方差 相等 的 计算 公式 
是 先 有 的 , 后 来 才 有 的 更 一 般 的 第 二 行 计 算 公 式 ， 所 以 , 可 能 是 为 了 尊重 历史 . 


实际 上 , 任何 两 个 总 体 的 方差 都 不 可 能 完全 相同 ， -如 汪 其 的 闫 伏 用 第 二 行 结 
果 也 差 不 了 多 少 . R 软 件 的 默认 值 就 是 方差 不 相等 的 情况 


2. 本 书 中 的 数值 结果 包含 的 小 数 点 后 的 位 数 往往 过 多 ， 这 是 直接 从 计算 机 上 复 和 
下 来 的 结果 , 为 了 比较 , 本 书 大 多 不 刻意 地 减少 小 数 点 后 的 位 数 . 





5.3.3 总体 比例 (Bernoulli 试 验 成 功 概率 )p 的 区 间 估 计 


例 5.3 在 一 个 大 都 市 中 对 1341 人 的 随机 调查 结果 显示 , 有 934 个 人 支持 绿色 出 
行 和 发 展 公 共 交 通 的 政策 . 假定 该 样本 为 简单 随机 样本 , 希望 找 出 总 体 中 支持 绿 
色 出 行 和 发 展 公 共 交 通 的 人 的 比例 的 点 估计 及 其 置信 和 度 为 95% 的 置信 区 间 . 
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首先 , 由 于 总 体 很 大 , 该 调查 可 以 看 成 是 Bernoulli 试 验 , 而 支持 绿色 出 行 和 发 
展 公共 交通 的 总 体 比 例 p 的 点 估计 可 以 很 容易 算出 : 7 = 934/1341 = 0.6964952. 
而 使 用 了 及 语句 
binom.test(934 ,1341 ,con=.95)$con 
可 以 得 到 p 的 95% 置 信 区 间 为 (0.6711031, 0.7210230)， 下 面 语句 可 以 算出 包括 精 
确 区 间 在 内 的 p 的 三 种 区 闻 及 其 点 估计 (要 事先 下 载 程序 包 Hmisc' )， 和 输出 中 的 渐 
近 (asymptotic) 区 间 是 用 Bernoulli 试 验 的 大 样本 正 态 近似 的 置信 区 间 的 公式 计算 
的 Wilson 区 间 是 正 态 近似 区 间 的 改进 . 
library (Hmisc); binconf (934, 1341, alpha=.05,method="all") 


输出 为 


PointEst Lower Upper 
Exact 0.6964952 0.6711031 0.7210230 
Wilson 0.6964952 0.6713547 0.7205131 


Asymptotic 0.6964952 0.6718872 0.7211031 

之 所 以 有 各 种 置信 区 间 的 算法 , 是 因为 在 前 计算 机 时 代 , 算 精 确 区 间 很 不 容 
易 ， 人 们 就 用 各 种 方法 来 寻找 计算 量 少 的 近似 区 间 . 

注意 , 这 里 的 方法 仅 限于 大 总 体 的 情况 . 如 果 用 正 态 近 似 , 则 只 适用 于 大 总 体 
及 大 样本 . 在 小 总 体 和 小 样本 时 要 用 超 几 何 分 布 的 模型 , 而 在 大 总 体 和 小 样本 时 
不 能 用 大 样本 正 态 近似 , 必须 直接 用 精确 方法 . 读者 可 参看 后 面 公式 . 


5.3.4 总体 比例 (Bernoulli 试 验 成 功 概率 ) 之 差 p -- pz 的 区 间 估计 


例 5.4 在 两 个 地 区 对 于 某 商 品 认可 与 否 的 调查 结果 显示 , 第 一 个 地 区 被 调查 
的 950 人 中 有 423 人 认可 , 而 在 第 二 个 地 区 的 被 调查 的 1102 人 中 只 有 215 人 认可 . 求 
这 两 个 总 体 比 例 之 差 p! 一 p2 的 95% 和 置信 和 区间. 

用 一 句 及 代码 
prop .test(c(423 ,215) ,c(950 ,1102) ,con=.95) $con 


可 以 得 到 两 个 总 体 比 例 之 差 p; 一 ps 的 95% 置 信 区 间 为 (0.2098615, 0.2904652). 


5.4 关于 置信 区 间 的 注意 氮 


前 面 已 经 提 到 , 不 要 认为 由 一 个 样本 数据 得 到 总 体 参 数 的 一 个 95% 置 信 区 间 ， 
就 以 为 该 区 间 以 0.95 的 概率 覆盖 总 体 参 数 ， 置 信和 度 95% 仪 仪 描 述 用 来 构造 该 区 则 
上 下 界 的 统计 量 (是 随机 的 ) 覆 盖 总 体 参 数 的 概率 , 也 就 是 说 , 无 穷 次 重复 抽样 所 得 
到 的 所 有 区 间 中 大 约 有 95% 包 含 参 数 . 但 是 把 一 个 样本 数据 带 入 统计 量 的 公式 所 


iFrank E Harrell Jr and with contributions from many other users (2012). Hmisc: Harrell 
Miscellaneous. R package version 3.9-3. http://CRAN.R-project.org/package=Hmisc. 
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得 到 的 一 个 区 间 , 只 是 这 些 区 间 中 的 一 个 . 这 个 非 随机 的 区 间 是 否 包含 那个 非 随机 
的 总 体 参 数 , 一 般 不 可 能 知道 . 非 随机 的 数目 之 间 没 有 概率 可 言 . 

置信 区 间 的 论述 是 由 区 间 和 置信 和 度 两 部 分 组 成 有 些 新 闻 媒 体 报道 的 一 些 调 
查 结果 只 给 出 百分比 和 误差 ( 即 置 信 区 间 ), 并 不 说 明和 置信 和 度 , 也 不 给 出 被 调查 的 人 
数 , 这 是 不 负责 的 表现 . 因为 降低 置信 度 可 以 使 置信 区 间 变 罕 ( 显 得 “精确 ”), 有 误 
导读 者 之 嫌 . 在 公布 调查 结果 时 给 出 被 调查 人 数 是 负责 任 的 表现 . 这 样 内行 则 可 
以 由 此 推算 出 置信 度 ( 由 后 面 给 出 的 公式 ), 反之 亦 然 . 

一 个 描述 性 例子 : 一 个 有 10000 个 人 回答 的 调查 显示 , 同意 某 种 观点 的 人 的 
比例 为 70%( 有 7000 人 同意 ), 可 以 算出 总 体 中 同意 该 观点 的 比例 的 95 吧 置信 区 间 
为 (0.691, 0.709)( 用 代码 binom.test(7000,10000,con=.01)$con), 另 一 个 调查 
声称 有 70% 的 比例 反对 该 种 观点 , 还 说 总 体 中 反对 该 观点 的 置信 区 间 也 是 (0.69， 
0.71). 到 底 相信 谁 呢 ? 实际 上 , 第 二 个 调查 隐瞒 了 置信 度 ( 等 价 于 隐瞒 了 样本 量 ). 
如 朱 第 二 个 调查 仅仅 调查 了 50 个 人 , 有 35 个 人 反对 该 观点 . 可 以 算出 , 第 二 个 调查 
的 置信 区 间 的 置信 和 度 仅 有 1%( 用 代码 binom .test (35,50,con=.01)$con). 

意识 表明 , 来 自 现实 世界 的 数据 量 越 大 , 对 现实 世界 的 了 解 就 越 充分 . 样本 量 
对 置信 区 间 有 很 大 的 影响 . 理想 的 情况 是 获得 很 小 的 置信 区 间 和 很 大 的 置信 和 度 . 但 
鱼 与 能 掌 不 可 兼 得 ， 只 好 固定 一 个 ， 力求 另 一 个 更 好 . 如 果 固 定 置信 度 在 某 个 值 ， 
比如 95%, 那么 样本 量 越 大 , 置信 区 间 就 越 窄 . 如 果 固 定 置信 区 间 的 长 度 , 那么 样 
本 量 越 大 , 置信 度 就 越 大 . 人 们 可 以 从 需要 的 置信 区 间 的 长 度 和 置信 度 求 出 需要 多 
大 的 样本 量 . 当然 , 要 指明 的 是 , 在 固定 置信 和 度 时 , 置信 区 间 长 度 的 减少 并 不 是 和 
样本 量 n 成 反比 , 而 是 和 Vn 成 反比 , 也 就 是 说 当 样 本 量 增加 一 倍 ( 即 2n) 时 , 置信 区 
间 的 长 度 为 原先 的 1/ V2. 

这 里 所 涉及 的 一 些 区 间 估 计 的 公式 在 后 面 会 介绍 , 同时 还 会 总 结 如 何 使 
用 R 软 件 从 数据 获得 想 要 的 区 间 估 计 . 
思考 一 下 : 

1. 对 于 正 态 总 体 , 在 样本 没有 得 到 时 ， 端 点 由 随机 的 统计 量 组 成 的 诸如 元 土 


ta/25/V7 的 100(1 一 Qa)% 置信 区 间 的 确 以 1 一 a 的 概率 覆盖 真实 总 体 均 值 , 但 
一 旦 得 到 样本 数据 , 并 以 此 计算 出 一 个 具体 数值 区 间 , 比如 例 5.1 中 的 95 双 置信 


区 间 (447.41, 450.61). 这 时 , 就 不 能 说 区 间 (447.41, 450.61) 以 0.95 的 概率 覆盖 
均值 . 为 什么 这 样 , 请 讨论 . 


. 置信 区 间 的 概念 需要 对 总 体 有 所 要 求 或 假定 , 请 讨论 . 





5.5 ”小结 


5.5.1 本 章 的 概括 和 公式 


本 章 的 内 容 很 简单 , 就 是 作为 统计 推断 重要 经 典 内 容 的 估计 , 包括 点 估计 和 区 
闻 佑 计 . 下 面 介 绍 进行 计算 所 依据 的 有 关公 式 . 
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1.， 一 个 正 态 总 体 均 值 /的 置信 区 间 


假定 独立 观测 值 Zi, …, Zn 形成 服从 正 态 分 布 的 样本 量 为 m” 的 一 个 样本 . 那么 总 
体 均值 4 的 100(1 一 a)% 置信 区 间 为 
这 里 z 为 样本 均值 ，s 为 样本 方差 ， ts 为 自由 度 为 n 一 1 的 t 分 布 相应 于 尾 概 
率 a/2 的 t 变 量 的 值 , 即 对 于 自由 度 为 n 一 1 的 t 分 布 变 量 T, 有 P(T > 如 ja) = a/2. 
尾 概率 的 概念 和 如 /的 求法 在 第 四 章 已 经 介绍 了 . 在 某 些 情况 下 , 假定 了 总 体 标 准 
兰 o 是 已 知 的 , 这 时 , 总 体 均 值 几 的 100(1 一 a)% 置 信 区 间 为 

5 士 zw- 或 者 (sp + 

这 里 元 为 样本 均值 ，o 为 已 知 的 总 体 方 差 ，ze/? 为 标准 正 态 分 布 相应 于 尾 概 
率 c/2 的 z 变 量 的 值 . 这 种 c 已 知 的 情况 虽然 少见 , 但 反映 了 置信 区 间 的 历史 , 所 以 
很 多 教科 书 都 论 及 . 按照 这 两 个 公式 以 及 前 面 两 章 提 到 的 利用 软件 计算 相应 值 的 
方法 , 可 以 很 容易 的 得 到 置信 区 间 . 实际 上 , 前 面 的 例子 说 明 , 统计 软件 可 以 直接 
从 数据 把 置信 区 间 以 及 各 种 估计 量 算出 . 不 用 按照 公式 分 别 计算 . 


2.， 正 态 总 体 均 值 之 差 /1 一 /的 置信 区 间 


这 里 分 总 体 方差 相等 和 不 相等 两 种 情况 . 实际 上 , 根本 无 法 根据 数据 证 明 两 
个 总 体 方差 相等 . 用 下 章 要 介绍 的 假设 检验 可 以 拒绝 方差 相等 . 但 有 人 觉得 可 以 
用 证 据 不 足以 拒绝 方差 相等 的 假设 来 说 明 两 个 总 体 方 差 相 等 .这 是 完全 错误 的 . 
因为 在 小 样本 时 , 基本 上 都 无 法 拒绝 方差 相等 的 假设 , 这 只 能 说 证 据 不 足 , 因而 仍 
然 把 方差 相等 作为 一 个 数学 假定 (而 不 是 事实 !) 

假定 两 总 体 方差 相等 假定 下 的 公式 . 假定 独立 观测 值 z1,.…., z;, 和 wy1, ..., yy 形 
成 两 个 服从 正 态 分 布 的 样本 , 样本 量 分 别 为 n1 和 mn, 那么 两 个 总 体 方差 相等 的 正 
态 总 体 均值 之 差 j 一 /2 的 100(1 - a)% 置 信 区 间 为 


_ 1 
(Zz1 一 元 2 ) 士 tay/25p -一 十 -一 


1 1 1 1 
5 一 Bo) 一 ta/asp\/ 一 + —, (B1 — Bo) + taj2sp4/— + 
(@ 元 2 ) J28p i 十 元 (£21 一 Ta2) 十 如 /25p 元 十 二 


这 里 和 元 分 别 为 两 个 样本 均值 ， taj2 为 目 由 度 为 ni 十 ma 一 2 的 t 分 布 相应 于 上 
侧 尾 概率 ay/2 的 t 变 量 的 值 , 即 对 于 自由 度 为 ni 十 na 一 2 的 t 分 布 变 量 T, 有 P(T > 
ta/2) 一 Q/ 2， 式 中 的 s, 定 义 为 





无 士 如 ma 


或 者 


(m1 一 1)s1 十 (na — 1)s2 


Sp 一 
?1 十 ?oa 一 工 


3 


而 s1 和 ss 分 别 为 两 个 样本 的 标准 差 . 
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假定 两 总 体 方 差 不 相 等 假定 下 的 公式 . 假定 独 立 观测 值 z1, ,Tn 和 , ..., Yn 
形成 两 个 服从 正 态 分 布 的 样本 , 样本 量 分 别 为 np1 和 ma, 那么 两 个 总 体 方差 不 相等 
的 正 态 总 体 均 值 之 差 j 一 42 的 100(1 一 a)% 置 信和 区 间 为 


(x1 一 了 2) 士 妇 /2 六 十 六 
‘2 


2 2 
_ ， 5S1 S35 
G 一 £2) 一 to/ 一 十 一 ， (ZX1 一 充 2) 十 ys 十 | 


这 里 了 ,和 分 别 为 两 个 样本 均值 . #* ,为 近似 自由 度 为 的 t 分 布 相应 于 上 侧 尾 概 
率 a/2 的 t 变 量 的 值 , 即 对 于 自由 度 为 《的 t 分 布 变量 T, 有 P(T > ta。j2) = ay/2, 自由 
度 { 定 义 为 











ni(ni—1) n2(nz 一 十) 
而 s; 和 ss? 分别 为 两 个 样本 的 标准 差 . 
3. Bernoulli 试 验 参 数 (成 功 概 率 或 总 体 比 例 ) p 的 置信 区 间 


(1) 大 总 体 和 大 样本 情况 

对 于 Bernoulli 试 验 中 参数 (成 功 概 率 )p 的 估计 的 最 常见 的 例子 是 抽样 调查 
中 持 茶 种 观点 的 比例 ， 假定 现在 总 体 很 大 . 共 调 查 了 n 个 人 (大 总 体 时 , 可 以 近 
似 看 为 nD 次 Bernoulli 试 验 ), 其 中 持 某 种 观点 的 为 x(“ 成 功 ” 数 目 x), 于 是 样本 比例 
为 P 二 xX/n. 那么 比例 p 的 100(1 一 a)% 近 似 置 信 区 间 为 (这 里 是 大 样本 正 态 近似 ， 
因此 与 正 态 分 布 发 生 了 关系 , 我 们 用 及 软件 可 以 得 到 精确 区 间 和 近似 区 间 ) 


A /PpP\4— Ip(l1 ~ 7) . /Dp nD 
D+ zay2 se) 或 者 (pany: | p+ | 


警告 : 这 个 公式 一 定 要 在 大 样本 时 才能 够 用 . 什么 是 大 样本 呢 ? 一 个 简单 的 近似 
判别 方法 (仅仅 是 必要 条 件 ) 是 当 区 间 

) 3/ 
完全 包含 在 (0, 1) 区 间 内 部 时 ， 可 以 认为 样本 足够 大 能 够 用 正 态 近似 . 
(2) 大 总 体 和 小 样本 情况 


在 大 总 体 , 但 小 样本 时 有 没有 精确 的 关于 比例 {或 近似 的 Bernoulli 试 验 的 成 
功 概率 ) 的 置信 区 间 的 求法 呢 ? 当然 有 , 只 不 过 许多 教科 书 不 介绍 、 一 些 傻 瓜 软 
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件 不 支持 而 已 (但 R 软 件 支持 )， 其 基本 思想 如 下 .用 第 四 章 的 记号 . 以 p() 代 表 
在 ?次 Bernoulli 试 验 中 成 功 的 次 数 的 概率 , p 为 每 次 试验 成 功 的 概率 . 有 


7 . 一 
p(k) 一 (za — p)" “, k 一 0， l, 0 


-i 


为 二 项 式 系 数 . 也 常用 C* 来 表示 .如 果 已 经 观测 到 n 次 试验 有 zx 次 成 功 ， 那 
么 p 的 100(1 一 a)% 置 信和 区间 (pz, pu) 的 上 限 pw 则 应 该 为 满足 


R ] 一 人 一 六 QO 
> p(k )- > 2) (1 —7) 5 
的 p, 而 置信 区 间 的 下 限 pz 则 应 该 为 满足 


Dr = (rr) = 


二 


这 里 


的 p. 除了 BR 软件 直接 计算 之 外 , 这 可 以 通过 二 项 分 布 的 表 , 或 者 软件 中 关于 二 项 分 
布 的 累积 分 布 图 数 做 几 次 尝试 而 得 . 当然 , 如 果 软 件 中 有 二 项 分 布 的 累积 分 布 函 
数 的 逆 函 数 则 更 方便 了 . 只 要 编 一 个 一 行 的 小 程序 就 可 得 到 结果 . 


(3) 小 总 体 情况 


在 小 总 体 的 抽样 调查 中 求 比 例 的 问题 大 都 应 该 属于 超 几 何 分 布 , 这 是 因为 在 
调 奋 中 的 抽样 均 属于 不 放 回 抽样 . 由 于 一 切 统计 模型 都 是 近似 模型 , 超 几 何 分 布 
也 不 例外 . 它 要 求 总 体 中 每 一 个 个 体 有 同等 机 会 被 抽 到 , 而 这 不 可 能 在 实践 中 完 
全 做 到 . 作为 超 几 何 分 布 , 就 应 该 有 直接 计算 其 置信 区 间 的 精确 方法 .按照 该 方 
法 人 总 体 中 的 废品 个 数 ) 的 100(1 一 a)% 的 置信 区 间 
着 手 , 而 该 区 间 (ki, ko) 上 限 应 该 为 满足 


P(N,n, kk, 14) < 5 


的 最 小 的 k, 而 其 下 限 友 应 该 为 满足 
P(Nn,kr-1)>1- 5 


的 最 大 的 k. 这 里 P(N,n,k,X) 三 P(X < x) 为 参数 为 N,n,k 的 超 几 何 分 布 的 累积 
分 布 函数 ， 


P(N,n,k,z) = DNn kt) 
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有 了 区 间 (ki, kz) 之 后 , 除 以 NN 就 可 以 得 到 比例 k/N 的 置信 区 间 了 . 

注意 , 在 概念 上 , 如 果 抽 样 时 总 体 中 所 有 个 体 的 等 可 能 性 可 以 保证 , 则 按 超 几 
何 分 布 计算 的 精确 区 间 可 被 看 成 为 精确 模型 的 精确 解 . 而 在 总 体 量 大 时 按 二 项 分 
布 计 算 的 精确 区 间 为 近似 模型 的 精确 解 . 如 果 总 体 量 比较 大 , 同时 样本 量 也 比较 
大 (至 少 核对 前 面 的 近似 必要 条 件 ), 才 可 以 用 二 项 分 布 的 大 样本 近似 求 置信 区 间 ， 
这 时 的 解 为 近似 模型 的 近似 解 . 
4 两 个 Bernoulli 试 验 参数 (成 功 概率 或 比例 ) 之 差 py ~ po 的 置信 区 向 

假定 两 个 Bernoulli 试 验 次 数 分 别 为 ni1 和 ns, 而 成 功 比 例 次 数 分 别 为 = 
TX1/n1i 和 7s 一 ZX2/no, 那么 , 参数 之 差 p1 一 p。 的 100(1 一 Qa)% 置 信 区 间 为 


~ 、 D1 (1]—» 0o( 工 一 力 
(Pi 加 po) 十 Za/2 D1( D1) 十 | po) 
TL] Tio 


同样 这 个 公式 也 只 有 在 两 个 样本 都 足够 大 时 才 可 以 应 用 . 


5.5.2 ”及 语句 的 说 明 

本 章 所 提 到 的 连续 变量 总 体 均值 和 标准 差 的 估计 量 就 是 在 第 三 章 提 到 的 样本 
均值 和 样本 标准 差 . 而 总 体 比 例 的 估计 就 是 样本 比例 (简单 的 整数 相 除 ). 因此 下 面 
不 性 述 . 稍微 复杂 的 是 区 间 估 计 . 但 都 可 以 直接 用 及 软件 得 出 : 
1. 单 样 本 的 总 体 均值 4 的 区 间 估 计 : 对 于 数据 代码 x, 用 及 语句 
t.test(x,conf=0.95)$conf 
得 到 (95%) 置 信 区 间 . 
2. 两 样本 的 总 体 均 值 差 J 一 /2 的 区 间 估 计 : 对 数据 代码 x 和 y, 用 语句 
t.test(x,y, conf=0.95)$conf 


束 可 以 得 到 (95%) 管 信 区 间 . 如果 想 用 前 计算 机 时 代 方 法 (假定 方差 相等 )， 
则 先 要 用 Ri 语句 var.test(x,y)$p.value 得 到 p 值 ， 如 果 p 值 不 是 很 小 ,， 可 用 语 
人 句 t .test(x,y，var=T,conf=0.95)$conf 得 到 假定 方差 相等 的 简单 公式 计算 
的 (95%) 置 信和 区间 . 


3. 单 样本 的 总 体 比 例 z 的 区 间 估 计 : 对 于 数据 代码 n 和 x, 用 及 语句 


binom.test(x,n,con=.95)$con 
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得 到 (95 吕 ) 置 信 区 间 . 或 者 用 

library(Hmisc); binconf (x, n, alpha=.05,method="all") 

得 到 各 种 精确 和 近似 置信 区 间 . 

4. 两 样本 总 体 比例 差 p; 一 ps 的 区 间 估 计 : 对 数据 代码 x1, x2 和 n1, n2, 用 语句 
Prop .test(c(xl,x2) ,c(nl,n2) ,con=.95)$con 

就 可 以 得 到 (95 儿 ) 置 信 区 间 . 


5.6 ”习题 

1. 说 出 点 佑 计 和 区 间 佑 计 的 不 同 以 及 各 目的 优 缺 点 . 

2. 如 果 一 条 厂 告 说 , 茶 药 品 的 有 效率 为 80%, 其 误差 为 正 负 3%, 那么 这 条 广告 给 
出 了 什么 信息 ?你 相信 这 条 广告 吗 ? 这 条 广告 的 发 布 者 隐瞒 了 什么 信息 ? 


3. 如 有 果 在 置信 上 度 不 变 的 情况 下 , 你 要 使 目前 所 得 到 的 置信 区 间 的 长 度 减 少 一 半 ， 
样本 量 应 增加 到 目前 样本 量 的 多 少 倍 ? 如 果 保 持 置 信 区 间 长 度 不 变 , 样本 量 增 
加 会 使 什么 变化 ? 


4. 利用 任何 你 觉得 可 用 的 方法 (比如 利用 公式 、 查 表 或 任何 计算 机 软件 ) 重 复 例 2. 
5. 如 果 得 到 均值 的 一 个 95% 置 信 区 间 为 (3.5，4.3)， 是 否 可 以 说 区 间 (3.5， 


4.3) 以 95 加 的 概率 履 再 总 体 均值 ? 是 不 是 也 可 以 说 总 体 均 值 以 95% 的 概率 落 
入 区 间 (3.5, 4.3) 之 中 ? 为 什么 ? 怎样 才 是 合适 的 说 法 ? 


6. 有 一 个 商店 雇员 问 了 10 个 顾客 是 否 喜 欢 该 商店 的 服务 , 结果 是 有 7 个 人 说 喜欢 . 
十 是 该 雇员 根据 公式 PD 土 zaj2VBP(1 一 六 /nn 得 到 喜欢 该 商店 服务 的 顾客 比例 
的 95% 和 置信 区 间 为 (0.42, 0.98). 这 样 做 有 什么 不 有 要 吗 ? 
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第 六 章 ”简单 统计 推断 : 总 体 参 数 的 假设 检验 


在 航天 火箭 发 射 前 , 没有 任何 人 能 够 事先 证 明火 箭 发 射 是 安全 的 , 人 们 最 多 只 
能 够 说 , 用 现 有 手段 没有 发 现 问题 . 但 是 , 只 要 发 现 一 个 影响 安全 发 射 的 问题 , 屠 
就 是 问题 , 火箭 就 不 能 发 射 ， 这 说 明 , 企图 肯定 什么 事物 很 难 , 而 否定 却 要 相对 容 
易 得 多 . 物理 学 以 及 其 他 科学 都 是 在 否定 中 发 展 的 , 这 也 是 假设 检验 背后 的 哲学 . 
在 所 有 学 科 中 , 只 有 纯粹 数学 是 在 一 定 公理 系统 下 依赖 肯定 式 演绎 思维 发 展 的 , 各 
种 科学 都 是 在 一 个 接 一 个 地 根据 观测 或 实验 结果 否定 各 种 假说 或 者 理论 的 基础 上 
发 展 的 . 

假设 检验 是 一 种 方法 , 目的 是 为 了 判断 一 个 关于 总 体 特征 的 定量 的 断言 ( 假 
设 ) 的 真实 性 . 人 们 通过 从 总 体 中 抽出 的 随机 样本 来 计算 适当 的 统计 量 来 检验 一 个 
假设 . 如 果 得 到 的 统计 量 的 实现 值 在 假设 为 真 时 应 该 是 罕见 的 (小 概率 事件 ), 则 有 
理由 拒绝 这 个 假设 

在 假设 检验 中 , 一 般 要 设立 一 个 原 假设 (上 面 的 “火箭 发 射 是 安全 的 ”就 是 一 个 
例子 ), 而 设立 该 假设 的 动机 主要 是 企图 利用 人 们 掌握 的 反映 现实 世界 的 数据 来 找 
出 假设 与 现实 之 间 的 矛盾 1, 从 而 否定 这 个 假设 , 并 称 该 检验 显著 (significant). 
在 多 数 统计 实践 中 (除了 理论 探讨 之 外 ) 的 假设 检验 都 是 以 否定 原 假设 为 目标 . 如 
果 否 定 不 了 , 那 就 说 明证 据 不 足 , 无 法 否定 原 假设 . 但 这 不 能 说 明 原 假设 正确 . 就 
像 用 一 两 个 仪器 没有 发 现 火箭 有 问题 还 远 不 能 证 明火 箭 是 安全 的 那样 

本 章 主要 讨论 关于 连续 变量 总 体 均值 和 基于 二 项 分 布 的 总 体 比例 的 假设 检验 . 


6.1 假设 检验 的 过 程 和 逻辑 
6.1.1 假设 检验 的 过 程 和 逻辑 


例 6.1( 数 据 : sugar.txt) 一 个 顾客 买 了 一 包 标 有 500g 重 的 红糖 , 觉得 份量 不 
自 , 于 是 找到 监督 部 门 , 当然 他 们 会 觉得 一 包 份量 不 够 可 能 是 随机 的 . 于 是 监督 部 
门 束 去 商店 称 了 50 包 红糖 , 得 到 样本 均值 (平均 重量 ) 是 498.35g, 这 的 确 比 500g 少 ， 
但 这 是 不 是 仅仅 是 由 于 随机 误差 造成 的 呢 ? 这 是 否 能 够 说 明 厂 家 生产 的 这 批 红糖 
平均 起 来 不 够 份量 呢 ? 首先 , 可 以 通 出 这 些 重量 的 直方 图 (图 6.1)， 这 个 直方 图 看 
上 去 像 是 正 态 分 布 的 样本 . 于 是 不 妨 假定 这 一 批 袋 装 红糖 呈正 态 分 布 2. 

图 6.1 是 用 下 面 R 语 句 画 的 : 
weight=scan("sugar .txt")# 读 入 数据 
hist(weight,main="Histogram of Sugar Weight") 

首先 要 提出 一 个 原 假设 ,比如 例 6.1 的 红糖 重量 问题 , 原 假设 可 为 均值 等 
于 500g(4 = 500). 这 种 原 假设 也 称 为 零 假设 (null hypothesis), 记 为 囊 . 与 此 


“这 里 所 谓 的 矛盾 , 就 是 按照 原 假设 , 现实 世界 数据 的 出 现 仅 仅 属于 小 概率 事件 , 是 不 大 可 能 出 现 的 . 
“这 种 假定 并 不 是 一 定 成 立 的 ， 后 面 将 介绍 关于 正 态 性 的 假设 检验 . 就 这 个 例子 而 言 , 常用 的 正 态 性 检 
验 (比如 Shapiro-Wilk 正 态 性 检验 ) 没 有 足够 证 据 来 拒绝 该 数据 的 正太 性 . 
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Histogram of Sugar Welght 





490 495 500 505 


weight 


图 6.1 例 6.1 的 50 包 红糖 重量 的 直方 图 . 


同时 必须 提出 备 选 假设 (或 称 为 备 择 假设 , alternative hypothesis), 比如 总 体 
均值 小 于 500g(j < 500). 备 选 假 设 记 为 有 Hi 或 HH,. 形式 上 , 上 面 的 关于 总 体 均 什 
的 Ho 相对 于 五; 的 检验 记 为 


Ho: 4=500£S Hi: <500 


这 里 符号 “4>” 就 是 相应 于 英文 versus, 类 似 于 甲 队 对 乙 队 比赛 的 “对 ” 字 ， 备 选 假 
设 的 不 等 式 应 该 按照 实际 数据 所 代表 的 方向 来 确定 , 即 它 通 常 是 被 认为 可 能 比 零 
假设 更 加 符合 数据 所 代表 的 现实 比如 上 面 的 Hi 为 < 500, 这 意味 着 , 至 少 样本 
均值 应 该 小 于 500, 至 于 是 否 显著 , 依 检 验 结果 而 定 . 检验 结果 显著 意味 着 有 理由 
拒绝 零 假 设 . 因此 , 假设 检验 也 被 称 为 显著 性 检验 (significant test). 

有 了 两 个 假设 , 就 要 根据 数据 来 对 它们 进行 判断 .数据 的 代表 是 作为 其 函 
数 的 统计 量 , 它 在 检验 中 被 称 为 检验 统计 量 (test statistic). 根据 零 假设 (不 
征 备 选 假设 0) 就 可 以 得 到 该 检验 统计 量 的 分 布 , 然后 再 看 这 个 统计 量 的 数据 实 
现 (realization) 属 不 属于 小 概率 事件 出 现 了 . 也 就 是 说 把 数据 代入 检验 统计 量 , 看 
其 值 是 否 落 入 零 假 设 下 的 小 概率 范畴 , 如 果 的 确 是 小 概率 事件 , 那么 就 有 可 能 拒绝 
等 假设 , 或 者 说 “该 检验 显著 ”, 否则 说 没有 足够 证 据 拒绝 零 假设 , 或 者 说 “该 检验 
不 显著 ”. 

注意 : 在 本 书 所 涉及 的 问题 中 , 零 假设 和 备 选 假设 在 假设 检验 中 并 不 对 称 . 
因 检 验 统计 量 的 分 布 是 从 零 假 设 导出 的 , 因此 , 如 果 发 生 了 矛盾 , 就 对 零 假设 不 利 了 . 
不 发 生 矛 盾 也 不 能 说 明 零 假设 没有 问题 , 只 能 说 证 据 不 足以 拒绝 零 假设 . 

在 零 假 设 下 , 检验 统计 量 取 其 实现 值 及 ( 沿 着 备 选 假设 的 方向 ) 更 加 极端 值 的 
概率 称 为 p 值 (p-value). 为 了 说 明 上 面 定义 的 含义 ， 就 本 章 将 涉及 的 单 边 和 双边 
检验 问题 而 言 , 假定 某 检验 统计 量 了 的 样本 实现 值 为 + 如 果 T 越 大 就 越 有 利于 备 
选 假设 ， 则 p 值 等 于 零 假设 下 统计 量 7 取 其 实现 值 及 更 极端 值 的 概率 Pr (7 > t); 
类 似 地 , 如 果 7T 越 小 就 越 有 利于 备 选 假设 , 则 p 值 等 于 Pp (T < t); 而 如 果 绝 对 
值 | 了 | 越 大 就 越 有 利于 备 选 假设 , 则 p 值 等 于 Pr (IT| > | 纯 .， 可 以 看 出 , p 值 和 检验 


82 ”统计 学 :从 数据 到 结论 


统计 量 的 实现 值 以 及 备 选 假设 的 方向 有 关 . 如 果 得 到 很 小 的 p 值 , 就 意味 着 在 零 假 
设 下 小 概率 事件 发 生 了 . 如 果 小 概率 事件 发 生 , 是 相信 零 假 设 , 还 是 相信 数据 呢 ? 
当然 多 半 是 相信 数据 . 于 是 就 拒绝 零 假设 . 但 在 零 假设 正确 时 , 小 概率 事件 也 还 是 
可 能 发 生 , 仅仅 是 发 生 的 概率 很 小 罢了 . 拒绝 正确 零 假 设 的 错误 常 被 称 为 第 一 类 
错误 (type I error). 犯 第 一 类 错误 的 概率 可 以 认为 等 于 p 值 , 或 者 不 大 于 (马上 
要 介绍 的 ) 事 先 设 定 的 显著 性 水 平 a. 

那 什么 是 第 二 类 错误 呢 ? 那 是 备 选 假 设 正确 时 没 能 拒绝 零 假设 的 错误 , 称 为 
第 二 类 错误 (type II error). 在 本 书 的 假设 检验 问题 中 , 由 于 备 选 假 设 不 是 一 个 
点 , 所 以 无 法 算出 犯 第 二 类 错误 的 概率 . 

男 一 个 概念 就 是 检验 的 势 (power), 对 于 统计 学 家 来 说 , 检验 的 势 就 是 当 备 选 
假设 正确 时 , 该 检验 拒绝 零 假设 的 概率 . 强势 检验 也 称 为 高 效率 检验 . 检验 的 势 越 
强 越 好 . 

零 假 设 和 备 选 假设 哪 一 个 正确 , 是 确定 性 的 , 没有 概率 可 言 . 而 可 能 犯错 误 的 
是 人 . 涉及 假设 检验 的 犯错 误 的 概率 就 是 犯 第 一 类 错误 的 概率 和 犯 第 二 类 错误 的 
概率 . 负责 任 的 态度 是 无 论 做 出 什么 决策 , 都 应 该 给 出 该 决策 可 能 犯错 误 的 概率 . 

到 底 2p 值 要 多 小 时 才能 够 拒绝 零 假 设 呢 ? 也 就 是 说 , 需要 有 什么 是 小 概率 的 
标准 . 这 要 看 具体 应 用 的 需要 . 但 在 一 般 的 统计 书 和 软件 中 , 使 用 最 多 的 标准 
古 在 零 假 设 下 (或 零 假 设 正 确 时 ) 根 据 样 本 所 得 的 数据 来 拒绝 零 假 设 的 概率 应 小 
于 0.05, 当然 也 可 能 是 0.01, 0.005, 0.001 等 等 . 这 种 事先 规定 的 概率 称 为 显著 性 水 
平 (significant level), 用 字母 ac 来 表示 ，a 并 不 一 定 越 小 越 好 , 因为 这 很 可 能 导 
致 不 容易 拒绝 零 假 设 , 使 得 犯 第 二 类 错误 的 概率 增 大 . 当 p 值 小 于 或 等 于 a 时 , 就 拒 
绝 零 假设 . 所 以 , a 是 所 允许 的 犯 第 一 类 错误 概率 的 最 大 值 . 当 p 值 小 于 或 等 于 a 时 ， 
束 说 这 个 检验 是 显 兰 的 . 无 论 统计 学 家 用 多 大 的 a 作为 显著 性 水 平 都 不 能 脱离 实 
际 问题 的 背景 . 统计 显著 不 一 定 等 价 于 实际 显著 . 反 过 来 也 一 样 . 

实际 上 , 多 数 计算 机 软件 仪 仅 给 出 p 值 , 而 不 给 出 一 个 确定 的 a. 这 有 很 多 方便 
之 处 ， 比 如 a = 0.05, 而 假定 所 得 到 的 p 值 等 寺 0.001， 这 时 如 果 采 用 p 值 作为 新 的 
显著 性 水 平 , 即 新 的 a = 0.001, 于 是 就 可 以 说 , 在 显著 性 水 平 为 0.001 时 , 拒绝 零 
假设 . 这 样 , 拒绝 零 假 设 时 犯错 误 的 概率 实际 只 是 干 分 之 一 而 不 是 旧 的 a 所 表明 的 
百 分 之 五 . 在 这 个 意义 上 , p 值 义 称 为 观测 的 显著 性 水 平 (observed significant 
level).， 在 统计 软件 输出 p 值 的 位 置 , 有 的 用 “p-value”"， 有 的 用 significant 的 缩 
写 “Sig” 就 是 这 个 道理 .根据 数据 产生 的 p 值 来 减少 a 的 值 以 展示 结果 的 精确 性 
总 是 没有 害处 的 ， 这 好 比 一 个 身高 180 厘 米 的 男生 , 可 能 愿意 被 认为 高 于 或 等 
于 180 厘 米 , 而 不 愿意 说 他 高 于 或 等 于 155 厘 米 , 虽然 这 第 二 种 说 法 数学 上 没有 丝 
毫 错误 . 

在 前 计算 机 时 代 , 在 假设 检验 中 从 若干 显著 性 水 平 中 选择 是 因为 无 法 计 
算 p 值 ， 而 教科 书 及 手册 只 能 提供 相应 于 有 限 a 值 的 表格 . 这 时 ，a 取 值 为 0.05， 
0.01，0.005，0.001 等 简洁 形式 的 值 也 是 很 自然 的 ， 不 能 想象 一 个 表格 是 用 a = 
0.009753 之 类 的 显著 性 水 平 制 成 . 但 今天 的 p 值 则 可 能 是 任何 非 负 值 , 因此 , 一 些 
现在 的 教科 书 还 是 引进 满足 人 们 某 种 心理 的 a 值 来 和 不 那么 整洁 的 p 值 比较 . 
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在 一 些 中国 出 版 的 统计 教科 书 中 会 有 不 能 拒绝 零 假 设 就 “接受 零 假 设 ” 的 说 
法 !. 这 种 说 法 是 不 严格 的 . 首先 , 如 果 你 说 “接受 零 假 设 ”, 那么 就 应 该 负责 任 地 提 
供 接受 零 假 设 时 可 能 犯 第 二 类 错误 的 概率 . 这 就 要 算出 在 备 选 假设 正确 的 情况 下 
错误 地 接受 零 假设 的 概率 . 但 是 , 这 只 有 在 备 选 假设 仅仅 是 一 个 与 零 假 设 不 同 的 确 
定 值 (而 不 是 范围 ) 时 才 有 可 能 . 多 数 基 本 统计 教科 书 的 备 选 假设 是 一 个 范围 , 例如 
在 前 面 例子 提 到 的 检验 问题 Ho : 人 = 500 今 如 : /< 500 的 情况 . 这 时 根本 
无 法 确定 犯 第 二 类 错误 的 概率 . 在 许多 诸如 应 用 回归 分 析 等 领域 的 教科 书 中 , 也 人 往 
往 把 一 系列 不 能 拒绝 零 假 设 的 检验 当成 接受 这 些 假 设 的 通行 证 . 比如 不 能 拒绝 某 
样本 的 正 态 性 就 变 成 了 证 明了 该 样本 是 正 态 的 等 等 . 其 实 , 不 能 拒绝 这 些 零 假设 ， 
仅仅 说 明 根 据 所 使 用 的 检验 方法 (或 检验 统计 量 ) 和 当前 的 数据 没有 足够 证 据 拒绝 
这 些 假 设 而 已 . 对 于 同一 个 假设 检验 问题 , 往往 都 有 多 个 检验 统计 量 , 而 且 人 们 还 
在 构造 更 优良 的 检验 统计 量 . 人 们 不 可 能 把 所 有 目前 存在 的 和 将 来 可 能 存在 的 检 
验 都 实施 . 因此 , 在 不 能 拒绝 零 假 设 时 , 只 能 够 说 , 按照 目前 的 证 据 和 检验 方法 , 不 
足以 拒绝 零 假设 而 已 , 而 零 假 设 仍然 是 一 个 数学 假定 . 后 面 将 会 用 例子 说 明 “ 接 受 
零 假设 ”的 说 法 是 不 妥当 的 . 统计 工作 者 必须 给 用 户 一 个 没有 偏见 的 信息 , 而 不 
是 代替 用 户 做 没有 指明 风险 的 决策 . 

思考 一 下 : 


,如果 零 假设 是 “ 菜 人 从 来 不 骂人 ”要 证 明 这 一 假设 容易 吗 ? 但 只 要 发 现 其 史 过 
一 次 , 这 个 假设 就 可 以 否定 了 . 请 讨论 科学 研究 中 的 类 似 情况 . 


. 假定 你 抓 住 一 个 刚 把 赃物 扔 掉 的 小 偷 , 但 没有 峙 物 不 能 证 据说 明 他 (她 ) 不 是 小 
偷 , 只 能 够 说 明证 据 不 足 . 这 和 在 无 法 在 证 据 不 足 时 不 能 说 “接受 零 假设 ”时 有 
同样 的 逻辑 . 





6.1.2 ”假设 检验 在 前 计算 机 时 代 发 展 的 一 些 概念 和 步骤 

1。 假设 检验 的 逻辑 步 又 
在 前 计算 机 时 代 的 课本 都 会 列 出 下 面 的 假设 检验 的 步 又 

(1) 写 出 零 假设 和 备 选 假设 ， 比 如 对 于 总 体 均值 的 检验 , 零 假设 为 企图 拒绝 的 
量 ,而 备 选 假设 需要 看 样本 均值 和 零 假设 均值 的 相对 大 小 来 定 . 


(2) 确定 检验 统计 量 , 本章 都 是 疗 用 Wi 
法 , 计算 机 会 自动 按 相 应 公式 计算 .). 


(3) 确定 显著 性 水 平 a. 这 个 是 你 自己 根据 实际 问题 的 需要 来 确定 . 在 前 计算 机 
时 代 , 只 能 在 几 个 有 限 值 中 挑选 . 在 计算 机 时 代 则 在 下 面 p 值 确定 之 后 决定 . 
! 在 国外 最 近 三 十 年 出 版 的 统计 教科 书 中 未 发 现 有 (在 没有 给 出 犯 第 二 类 错误 概率 的 情况 下 )“ 接 受 零 候 
设 "的 说 法 . 而 在 中 国 , 过 去 四 五 十 年 出 版 的 教材 , 特别 是 一 些 “ 权 威 "教材 , 不 乏 “ 接 受 零 假设 "的 说 法 , 这 可 
能 是 一 种 有 中 国 特色 的 “习惯 "或 “传统 " 吧 . 
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(4) 根据 数据 计算 检验 统计 量 的 实现 值 . 这 一 步 过 去 要 代 公 式 计算 (现在 计算 机 
会 代劳 ). 


(5) 得 到 检验 是 否 显著 的 结论 : 


(a) 在 前 计算 机 时 代 , 用 实现 值 来 比较 根据 a 查 表 得 到 的 “临界 值 * (下 面 有 说 
明 ), 如 果 进 入 了 临界 值 的 “否定 域 ? 则 认为 检验 显著 , 拒绝 零 假设 . 

(b) 在 计算 机 发 展 的 今天 , 计算 机 会 根据 实现 值 计 算 p 值 . 如 果 p 值 小 于 或 等 
于 a 则 认为 检验 显著 , 拒绝 零 假 设 . 


注意 : 当 上 面 的 第 (1) 款 确定 之 后 , 其 余 皆 由 计算 机 自动 完成 . 这 里 所 列 出 的 
几 条 , 是 前 计算 机 时 代 手 工 计算 的 思维 和 运作 步骤 . 


2. 关于 “临界 值 ” 的 注 


作为 概率 的 显著 性 水 平 的 a 实际 上 相应 于 一 个 检验 统计 量 ( 比 如 TTT) 取 值 范 
围 的 一 个 临界 值 (critical value)( 这 里 暂时 用 t。 表 示 ), 它 定义 为 , 统计 量 取 该 
值 或 更 极端 的 值 的 概率 等 于 a( 比 如 , Py,(T > 如) = a Pa(T<t)= a 
或 Pg,(|T| > |t。|) = a, 依 备 选 假设 的 方向 而 定 ). 也 就 是 说 ,“ 统 计量 的 实现 值 比 
临界 值 更 极端 ”等 价 于 “p 值 小 于 a”. 使 用 临界 值 的 概念 进行 的 检验 不 计算 p 值 . 
只 比较 统计 量 的 取 值 (了 = 坟 和 临界 值 如 的 大 小 . 统计 量 的 实现 值 比 临 界 值 更 极端 
的 取 值 范围 也 称 为 “拒绝 域 ”. 

以 例 6.1 为 例 ， 如 果 设 定 显 著 性 水 平 为 a = 0.005， 那么 ,对 于 自由 度 
为 49 的 t 分 布 相 应 的 临界 值 为 f。 = 一 2.679952( 这 不 是 查 表 得 到 的 , 而 是 用 R 语 
名 qt(.005,49) 算 出 的 ),， 因 此 ，2p 值 小 于 0.005 等 价 于 检验 统计 量 的 值 (这 里 是 - 
2.696) 比 如 还 要 极端 , 即 小 于 如 , 这 时 拒绝 域 为 (一 co, 一 2.679952). 

使 用 临界 值 而 不 是 p 值 来 判断 拒绝 与 否 是 前 计算 机 时 代 的 产物 . 当时 计算 p 值 
人 不易 , 只 采用 临界 值 的 概念 . 但 从 给 定 的 a 求 临 界 值 同 样 也 不 容易 , 好 在 习惯 上 仅 
仅 在 教科 书 中 列 出 相应 于 特定 分 布 的 几 个 有 限 的 a( 比 如 a = 0.05, a = 0.025, a = 
0.01, a = 0.005, @ = 0.001 等 等 ) 的 临界 值 , 或 者 根据 分 布 表 反 过 来 查 临界 值 (很 不 
方便 也 很 粗糙 ). 现在 计算 机 软件 大 都 不 给 出 a 和 临界 值 , 但 都 给 出 p 值 和 统计 量 的 
实现 值 , 让 用 户 自己 决定 显著 性 水 平 是 多 少 . 

显 兰 性 水 平和 临界 值 的 概念 都 出 现 于 前 计算 机 时 代 , 但 一 些 教科 书 还 延 用 至 
今 , 主要 企图 说 明 假 设 检验 的 逻辑 过 程 . 那 时 的 检验 方向 、 显 著 人 性 水 平 (临界 值 ) 的 
确定 都 是 在 抽样 之 前 决定 的 , 但 现在 (至 少 在 本 书 涉及 到 的 检验 中 ) 则 以 数据 为 准 ， 
一 般 有 了 数据 才 确 定 检 验方 向 , 并 根据 数据 算出 p 值 来 做 出 最 后 关于 检验 的 决策 . 


6.2 ”对 于 正 态 总 体 均值 的 检验 


6.2.1 根据 一 个 样本 对 其 总 体 均 值 大 小 进行 检验 


假定 一 个 样本 来 自 于 均值 为 /的 正 态 总 体 , 人 们 想 检验 这 个 均值 是 否 等 于 一 个 
确定 的 数目 , 比如 说 jo. 这 就 可 以 利用 下 面 的 t 检 验 来 实现 . 继续 看 例 6.1. 
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例 6.1( 数 据 : sugar.txt, 继续 ) 监督 部 门 称 了 50 包 标 有 500g 重 的 红糖 , 均值 
是 498.35g, 少 于 所 标的 500g， 对 于 三 家 生产 的 这 批 红糖 平均 起 来 是 否 够 份量 , 需 
要 统计 检验 . 由 于 厂家 声称 每 袋 500g, 因此 零 假 设 为 总 体 均值 等 于 500g( 被 怀疑 对 
象 总 是 放 在 零 假 设 ), 而 且 由 于 样本 均值 少 于 500g( 这 是 怀疑 的 根据 ), 把 备 选 假设 
定 为 总 体 均 值 少 于 500g( 这 种 备 选 假 设 为 单 向 不 等 式 的 检验 称 为 单 尾 检 验 , 而 备 选 
假设 为 不 等 号 “ 尖 ” 的 称 为 双 尾 检验 ,下面 会 解释 ). 即 
Ho: 4=500 SS Hi: 1 < 500, 


而 检验 统计 量 就 是 第 四 重 引 进 的 作为 对 均值 的 某 种 标准 化 的 

_* Ho 

/| 
符号 中 的 Ho 通常 表示 为 零 假 设 中 的 均值 (这 里 是 500). 在 零 假 设 之 下 (体现 在 公式 
中 的 j0), 根据 例 6.1 对 总 体 的 正 态 性 假定 , 它 有 自由 度 为 一 1 = 50 一 1 二 49 的 t 分 
布 ( 参 看 4.3.2 节 )， 当 然 实际 上 不 必 代 入 这 个 公式 去 手工 计算 了 , 让 计算 机 去 代劳 
好 了 , 使 用 有 代码 


x=scan("sugar .txt")# 读 入 数据 


t.test(x,m=500,alternative="less") 


计算 结果 是 上 = 一 2.6962( 也 称 为 t+ 值 ), 同时 得 到 p 值 为 0.004793. 看 来 可 以 选择 显 
著 性 水 平 为 0.005, 并 宣称 拒绝 零 假设 , 而 错误 拒绝 的 概率 为 0.005. 对 于 这 里 红糖 
的 具体 问题 则 可 以 认为 , 红糖 平均 重量 为 包装 上 标记 的 500g 是 不 能 接受 的 , 该 数 
据 倾向 于 支持 平均 重量 少 于 500g 的 备 选 假设 . 图 6.2 给 出 一 个 t 分 布 密度 函数 图 , 显 
示 出 到 许 这 个 t 统 计量 取 值 在 什么 位 置 . 看 得 出 来 , 在 直观 上 这 也 的 确 是 个 小 概率 
事件 . 





Tail Probability for i(49) 


Density of t(49) 





图 6.2 统计 量 t = 一 2.696 相 应 于 左边 尾 概率 (p 值 )0.0048. 


上 面 例子 的 备 选 假设 为 小 于 (“<”) 某 个 值 . 同样 也 可 能 有 备 选 假设 为 均值 大 
于 (“>”) 茶 个 值 的 情况 . 这 种 取 备 选 假设 为 均值 大 于 或 小 于 某 个 值 的 检验 称 为 单 
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尾 检验 (onertailed test, 也 称 为 单 侧 检验 或 单 边 检验 ). 下 面 看 一 个 选 假设 为 均 
值 大 于 (“>”) 某 个 值 的 例子 . 


例 6.2( 数 据 : exh.txt) 汽车 厂商 声称 其 发 动机 排放 标准 的 一 个 指标 平均 低 

于 20 个 单位 . 在 抽查 了 10 台 发 动机 之 后 , 得 到 下 面 的 排放 数据 : 
17.0 21.7 17.9 22.9 20.7 22.4 17.3 21.8 24.2 25.4 

该 样本 均值 为 21.13. 究竟 能 否 由 此 认为 该 指标 均值 超过 20? 这 次 的 假设 检验 

问题 就 是 
Ho: 1 = 20 < 已 ] : /> 20. 

和 前 面 的 例子 的 方法 类 似 , 使 用 RR 代码 
x=scan("exh .txt")# 读 入 数据 
t.test(x,m=20,alternative='"greater") 

计算 结果 是 t = 1.2336, 同时 得 到 p 值 为 0.1243. 这 个 p 值 较 大 , 因此 , 没有 证 
据 盏 定 零 假设 . 也 可 以 画 出 类 似 于 图 6.2 的 尾 概率 图 (图 6.3) 这 时 的 t 分 布 的 自由 度 
为 9. 


Tail Probability for t(9) 





/ \ 


So | / 


/ 
2 p-valuas0.1243 
i i t=1.233 i 
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Density of t(9) 














6.3 统计 量 上 = 1.2336 相 应 于 右边 尾 概率 (p 值 )0.1243. 


从 图 6.3 可 以 看 出 , 右边 的 尾 概率 不 能 说 是 小 概率 . 如 果 要 是 拒绝 零 假设 的 话 ， 
犯错 误 的 概率 就 多 于 12%(0.1243) 了 , 因此 没有 足够 证 据 来 拒绝 零 假 设 , 或 者 说 该 
检验 不 显著 . 

注意 : 在 假设 检验 中 往往 也 用 带 等 号 的 不 等 式 来 表示 零 假 设 , 比如 上 述 的 检 
验 可 记 为 

Ho: 4<20 人 OOH:ph>20 


但 这 里 用 于 计算 p 值 的 零 假 设 还 是 / = 20, 显然 , 如 果 能 够 拒绝 零 假 设 1 = 20, 那 
么 对 于 任何 /小 于 20 的 零 假 设 就 更 有 理由 拒绝 了 . 这 和 以 拒绝 零 假 设 为 初衷 的 候 
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议 检 验 思维 方式 是 一 致 的 . 在 这 种 记号 下 ， 在 不 能 拒绝 零 假设 时 ， 如 采用 “接受 零 
假设 ”的 说 法 , 就 更 显得 不 妥 了 . 
另外 , 还 有 所 谓 的 双 尾 检验 (two tailed test, 也 称 为 双 侧 检验 或 双边 检 

验 ) 问 题 , 即 

Ho: 4H=po SO Hi: pA#Ako 
的 问题 . 显然 , 在 这 种 情况 下 , 尾 概率 不 仅 是 左边 或 右边 的 一 个 尾 概率 , 而 是 两 边 
尾 概率 之 和 . 因此 如 果 是 一 个 单 尾 检验 问题 , 用 了 双 尾 检验 的 模式 , p 值 就 比 用 单 
尾 检验 时 大 了 一 倍 . 如 果 在 上 面 例 6.2 中 , 把 发 动机 排放 指标 例子 的 检验 问题 改 为 
是 否 该 发 动机 的 排放 指标 均值 等 于 20. 检验 问题 则 可 以 写成 

Ho: HW<20©SH:nzx20 


这 时 t 统 计量 还 是 取 原 来 的 值 1.2336, 但 p 值 为 0.1243 x 2 = 0.2486. 图 6.3 就 变 成 
图 6.4 的 样子 . 
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6.4 统计 量 t = 1.2336, 而 p 值 等 于 左右 尾 概 率 之 和 , 即 0.2486. 


这 看 起 来 有 些 怪异 . 好 端 端的 单 尾 检验 为 什么 要 用 双 尾 检验 ? 对 于 这 个 例子 , 的确 
没有 必要 进行 双 尾 检验 . 


6.2.2 ”根据 来 目 两 个 总 体 的 独立 样本 对 其 总 体 均值 的 检验 


和 区 间 佑 计 类 似 , 也 可 以 做 关于 两 个 独立 正 态 总 体 均 值 /1 和 js 的 差异 的 假设 
检验 ， 和 一 个 总 体 均值 的 检验 类 似 , 检验 统计 量 也 有 t 分 布 . We 
检验 . 现 用 下 面 例子 说 明 . 


例 6.3 (数据 : drug.txt) 为 检测 某 种 药物 对 攻击 性 情绪 的 影响 , 对 处 理 组 
的 100 名 服药 者 和 对 茹 组 的 150 名 非 服药 者 进行 心理 测试 , 得 到 相应 的 某 指标 . 人 
们 要 检验 处 理 组 指标 的 总 体 均值 1 是 否 大 于 对 照 组 的 指标 的 总 体 均值 wz. 这 里 ， 
假定 两 个 总 体 独立 地 服从 正 态 分 布 . 相应 的 假设 检验 问题 为 : 


Ho: = Hi: hh > p, 
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这 也 可 以 与 成 
Ho : /0 一 Ha 一 0 < Hi: AI 一 Ha > 0. 


数据 有 两 个 变量 ， 一 个 是 心理 测试 变量 名 ah， 另 一 个 是 区 分 两 组 人 的 变 
量 id(1 为 服药 组 ,2 为 对 照 组 ). 使 用 有 代码 
w=read.table("drug.txt'",header=T)# 读 入 数据 
x=w[w[,2]==1,1] ;y=w[w[,2]==2,1] # 分 开 两 个 数据 
t.test(x,y,alt="greater'") # 检 - 验 


得 到 t 统 计量 等 于 0.9419, z 值 为 0.1736. 因此 无 法 拒绝 零 假 设 , 即 不 能 得 出 处 理 组 
的 平均 指标 大 于 对 照 组 的 结论 . 

说 明 : 与 5.3.2 节 的 关于 呈 一 jw2 的 置信 区 间 问 题 一 样 , 很 多 经 典 文献 也 建 
议 先 做 方差 是 否 相 等 的 检验 (可 用 RR 代码 var .test(x,y) 实 行 , 得 到 相应 的 p 值 ， 
对 本 例 ， 该 检验 p 值 为 0.07327091)， 如 果 p 值 较 大 , 则 用 方差 相等 的 公式 (相应 
于 及 代码 t.test(x,y,alt="greater'" ,var=T))， 否则 用 复杂 公式 (相应 于 R 代 
僻 t .test(x,y,alt="greater"))， 这 是 前 计算 机 时 代 节 省 计算 量 的 产物 . 实 
际 上 , 任何 两 个 总 体 的 方差 都 不 可 能 完全 相同 , 如 果 相 信和 数据 , 不 去 检验 方差 , 直 
接 用 方差 不 等 的 方法 去 做 , 不 会 有 问题 的 , 即使 方差 相等 , 结果 差别 也 不 大 . 


6.2.3 成 对 样本 的 问题 
经 常 有 所 谓 成 对 样本 (paired samples) 问 题 . 下 面 看 一 个 例子 . 


例 6.4( 数 据 : diet.txt) 这 里 有 两 列 50 对 减肥 数据 ， 其 中 一 列 数据 (变量 
是 before) 是 减肥 前 的 重量 , 男 一 列 ( 变 量 是 after) 是 减肥 后 的 重量 (单位 : 公斤 ). 
人 们 希望 比较 50 个 人 在 减肥 前 和 减肥 后 的 重量 .这样 就 有 了 两 个 样本 , 每 个 都 
有 50 个 数目 . 这 里 不 能 用 前 面 的 独立 样本 均值 差 的 检验 , 这 是 因为 两 个 样本 并 不 
独立 . 每 一 个 人 减肥 后 的 重量 都 和 自己 减肥 前 的 重量 有 关 , 但 不 同人 之 间 却 是 独 
立 的 . 令 所 有 个 体 减 肥 前 后 重量 差 (减肥 前 重量 减 去 减肥 后 重量 ) 的 均值 为 ip, 这 
样 所 要 进行 的 检验 为 

Ho: jp=0 人 全 HH: np>0. 


人 们 可 以 把 两 个 样本 中 配对 的 观测 值 逐 个 相 减 , 形成 由 独立 观测 值 组 成 的 一 
个 样本 , 然后 用 单 样本 检验 方法 , 看 其 均值 是 否 为 零 . 在 相 减 之 后 公式 和 单 样本 
均值 检验 无 异 . 当然 , 如 果 直 接 选 用 软件 中 成 对 样本 均值 的 检验 , 就 不 用 事先 逐个 
相 减 了 . 这 里 也 有 单 尾 和 双 尾 检验 . 这 里 用 的 检验 是 假定 总 体 分 布 为 正 态 分 布 时 
的 t 检 验 . 根据 及 代码 


w=read.table("diet.txt'" ,header=T)# 读 入 数据 
t.test(w$before，w$after ，alt="greater" ,pair=T)# 直 接 检 验 


或 者 
t.test(w$before-w$after, alt="greater") # 相 减 后 检验 
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都 得 到 检验 统计 量 ! = 3.355, p 值 为 0.0007694， 因 此 在 显著 性 水 平 为 0.001( 其 
全 0.0008) 时 , 可 以 拒绝 零 假 设 . 也 就 是 说 , 减肥 后 和 减肥 前 相 比 , 平均 重量 显著 要 
轻 一 些 . 


6.2.4 ”关于 正 态 性 检验 的 问题 


1. 这 里 对 于 总 体 均 值 的 检验 均 假 定 了 总 体 分 布 的 正 态 性 ,但 如 何 检验 正 态 
性 呢 ( 也 只 能 是 拒绝 或 不 拒绝 )? 最 简单 实用 的 方法 是 用 Shapiro 正 态 性 检 
验 (Shapiro-Wilk normality test). 它 检验 : 

Ho : 数据 来 自 正 态 总 体 车 囊 : 数据 不 是 来 自 正 态 总 体 . 


比如， 对 于 sugar 数 据 ， 在 R 中 读 入 数据 : x=scan("sugar.txt")， 用 语 
人 句 shapiro.test(x), 得 到 p 值 为 0.4236， 因此 没有 证 据 拒 绝 该 变量 的 正 态 性 . 
Shapiro 检 验 是 一 个 比较 好 的 检验 ， 在 检验 正 态 性 方面 一 般 要 优 于 Kolmogorov- 
Smirnov 检 验 . 


. 关于 检测 正 态 性 的 直观 办 法 为 正 态 QQ 图 (不 一 定 准确 )， 它 是 用 样本 分 位 数 与 
正 态 分 位 数 做 散 点 图 , 对 于 sugar 数 据 的 样本 (如 果 存 在 变量 x 中 ), 在 R 中 可 以 用 
下 面 语句 实现 : qqnorm (x) ;qqline(x) (图 6.5). 如 果 总 体 是 正 态 的 , 则 图 上 的 
扩 应 该 近似 地 排 成 一 条 直线 . 


b> 


Normal Q-Q Plot 





Sample Quantiles 








Theoretical Quantiles 


6.5 ”Sugar 数据 的 正 态 QQ 图 . 


3. 如 果 正 态 性 假定 被 拒绝 了 . 那么 这 里 6.2 节 的 所 有 检验 就 都 不 适用 了 , 这 时 可 试 
试 后 面 介绍 的 非 参数 检验 方法 . 那里 对 总 体 的 假定 很 少 或 者 没有 . 


4. 后 面 在 回归 和 其 他 一 些 问 题 中 , 也 需要 一 些 正 态 假定 , 也 可 以 使 用 Shapiro 检 验 
来 判断 假定 的 合理 性 . 
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. 和 任何 检验 一 样 ，Shapiro 检 验 不 能 由 于 z 值 大 就 证 明 一 个 数据 的 背景 分 
布 为 正 态 . 读者 可 以 试 试 shapiro.test(1:30)，shapiro.test(1:50)， 
shapjiro.test(1:53) 等 语句 ， 实 际 上 , 正 整 数 序列 完全 不 是 正 态 的 , 但 一 
直到 从 1 开始 的 52 个 整数 时 , p 值 才 小 于 0.05. 


6.3 ”对 于 比例 的 检验 
6.3.1 对 于 总 体 比 例 的 检验 


例 6.5( 数 据 : twop.txt) 对 于 电视 节目 ,收视 率 是 个 重要 的 指标 . 一 个 
对 1500 人 的 电话 调查 表明 , 在 某 一 节目 播 出 的 时 候 , 被 访 的 正在 观看 电视 的 人 
中 有 23% 的 正在 观看 这 个 节目 . 现在 想 知 道 , 这 是 否 和 该 节目 的 制作 人 所 期 望 
的 po = 25% 有 显著 不 足 . 
这 个 例子 可 以 看 成 是 一 个 参数 为 p 的 二 项 分 布 问题 (请 不 要 把 这 个 p 和 检验 中 
的 p 值 混 清 !). 形式 上 的 假设 检验 问题 是 
Ho: p=0.25 © Hi: p< 0.25. 


如 果 n 为 访问 的 正在 看 电视 的 人 数 ，z 为 其 中 观看 该 节目 的 人 人数， 那么 
样本 中 的 观看 比例 为 六 = xz/n = 0.23. 这 是 个 二 项 分 布 的 问题 ,只 要 求 
出 在 零 假设 为 二 项 分 布 Bin(n,0.25) 时 ， 概率 P(x < 0.23m) 就 得 到 p 值 (用 及 语 
名 pbinom(0.23*1500,1500, .25) 得 到 : 在 ”= 1500 时 ，p 值 为 0.0384)， 或 者 
直接 用 RR 精确 检验 语句 binom.test(0.23*1500,1500, .25,alt="less") 得 到 同 
样 结果 . 

历史 上 的 近似 方法 . 在 n 很 大 时 , 可 以 用 大 样本 正 态 近 似 !, 那 时 检验 统计 量 则 
是 在 零 假设 下 当 大 样本 时 近似 有 标准 正 态 分 布 的 统计 量 
方 一 po 0.23—0.25 


这 个 数值 用 手 算 也 不 费力 气 . 实际 上 ， 对 于 mw = 1500， 前 面 用 过 的 RR 也 
数 prop .test() 就 是 基于 这 个 公式 (在 做 了 连续 性 修正 之 后 *) 算出 p 值 为 0.03929， 
而 不 做 连续 性 修正 直接 用 公式 得 到 的 p 值 为 0.03681914. 

给 出 样本 量 的 情况 . 请 注意 , 前 面 第 五 章 提 起 过 , 即使 被 访 者 的 百分比 都 一 
样 , 但 样本 少 的 信息 就 少 ， 对 于 假设 检验 也 是 一 样 . 样本 量 对 于 假设 检验 的 结果 
就 十 分 重要 . 对 于 本 例 , 如 果 只 知道 百分比 , 下 面 看 看 不 同 的 样本 量 会 得 到 什么 结 
果 ( 假 定 ; = x/n = 0.23 不 变 ). 


! 己 经 得 到 精确 检验 结果 了 , 为 什么 还 要 讲 大 样本 近似 检验 昵 ? 这 是 因为 多 数 传统 统计 教科 书 还 是 习惯 
十 介绍 前 计算 机 时 代 的 数学 结果 , 这 里 为 了 尊重 统计 发 展 的 历史 , 也 介绍 有 关 的 公式 和 方法 . 

2 连续 性 修正 是 指 在 用 连续 分 布 近似 离散 分 布 时 所 做 的 修正 .例如 , 对 于 取 整 数值 的 离散 变量 的 概 
率 P(2 < XX < 3) 在 连续 分 布下 换 成 P(2.5 < XX < 3.5). 而 且 , 连续 性 修正 可 能 会 有 多 种 模式 . 


CT 
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1. 假定 样本 量 为 n = 1500( 和 数据 给 的 一 样 ), 已 经 知道 精确 检验 得 到 的 p 值 
为 0.0384, 而 (连续 性 修正 后 的 ) 正 态 近似 的 p 值 为 0.03929. 因此 , 可 以 认为 (如 
果 选 显著 性 水 平 为 0.05 的 话 ) 说 收视 率 有 25% 是 过 分 了 , 即 拒绝 零 假 设 . 


2. 假定 样本 量 为 n = 100, 那么 上 面 的 检验 通过 计算 得 到 的 精确 p 值 为 0.371( 用 
语句 pbinom(0.23*100,100, .25)), 而 (连续 性 修正 后 的 ) 正 态 近似 的 检验 得 
到 的 p 值 为 0.3645(R 语 句 prop.test(0.23*100,100, .25,alt="less")). 
此 , 没有 足够 的 理由 拒绝 收视 率 有 25 多 的 零 假 设 (如 果 选 显著 性 水 平 为 0.05 的 
话 ). 

读者 已 经 注意 到 了 , 精确 检验 、 利 用 公式 的 近似 检验 以 及 用 连续 性 修正 的 近 
似 检验 的 三 种 结果 都 不 一 样 . 在 计算 机 软件 很 方便 的 今天 , 当然 尽量 用 精确 检验 
了 , 而 软件 通常 会 自动 在 样本 量 太 大 时 自动 转换 成 使 用 某 种 连续 性 修正 的 近似 (不 
仅仅 对 正 态 近似 ) 检 验 . 代 近 似 公式 计算 是 计算 机 不 发 达 时 的 遗产 . 

前 面 对 总 体 比 例 的 检验 所 用 的 公式 利用 了 二 项 分 布 的 大 样本 正 态 近似 , 怎样 
才能 够 算是 大 样本 呢 ? 这 里 只 给 出 一 个 必要 条 件 , 这 和 第 五 章 求 比例 的 置信 区 间 
时 大 样本 的 近似 标准 类 似 , 即 当 区 间 

po 土 3 Pa 一 po) 

完全 包含 在 (0, 1) 区 间 内 部 时 , 一 般 就 近似 地 认为 样本 足够 大 , 能 够 用 正 态 近似 . 

另外 , 关于 比例 的 检验 除了 例子 中 的 左边 单 尾 检验 之 外 , 还 有 右边 的 单 尾 检验 和 双 

尾 检验 . 这 与 均值 的 检验 类 似 . 详情 请 看 后 面 的 公式 . 

对 于 两 个 样本 , 也 有 关于 两 个 总 体 比 例 之 差 pi - ps 的 检验 ， 还 拿 收 视 率 为 
例 ， 如 果 市 目 甲 的 样本 收视 率 为 20%(P1 = zi/ni = 0.20), 而 节目 乙 的 收视 率 
为 21%(Po = z2/no = 二 0.21), 是 不 是 节目 甲 的 总 体 收视 率 就 真 的 低 于 节目 乙 ? 这 
就 是 检验 问题 

Ho: pi1—-p=Do=0$S Hi: pi—p2<0. 

这 里 的 零 假 设 意味 着 节目 甲 和 节目 乙 收 视 率 相等 .检验 统计 量 同样 不 复杂 . 假 

定 ni 二 1200, nz = 1300. 使 用 精确 检验 的 R 语 句 为 

binom.test(c(.2*1200,.21*1300) ,c(1200 ,1300) ,alt='"l]ess') 

得 到 p 值 为 0.07882. 这 说 明 对 于 显著 性 水 平 a = 0.05, 没有 足够 证 据 拒 绝 零 假设 . 

历史 上 的 近似 方法 . 传统 的 教科 书 都 表明 , 该 检验 统计 量 在 零 假 设 下 在 大 样 
本 时 为 具有 近似 标准 正 态 分 布 的 统计 量 





， (Pi1 — po) — Do _ (0.20 — 0.21)—0 
D1(l— ni) D2l1 一 po) 0.2(1 ~— 0.2) 0.21(1 — 0.21) 
ni ma 1200 1300 


根据 这 个 公式 ,“ 手 算 ” 也 可 以 得 到 结果 , 由 此 得 到 p 值 等 于 0.2679. 因此 , 在 显 
车 性 水 平 即 使 是 0.1 时 , 也 没有 足够 证 据 可 以 拒绝 “节目 甲 和 节目 乙 收视 率 相 等 ”的 
等 假设 . 用 使 用 连续 性 修正 的 及 语句 
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prop.test(c(.2*1200, .21*1300) ,c(1200 ,1300) ,alt="]ess'") 


得 到 检验 的 p 值 为 0.2847， 这 个 结果 和 不 用 连续 性 修正 的 差不多 , 但 和 精确 检验 
的 0.07882 还 是 很 不 同 . 这 再 次 表明 , 传统 的 套用 近似 数学 公式 的 算法 , 即使 有 计 
算 机 软件 , 也 最 好 不 用 , 能 用 精确 检验 就 一 定 首先 使 用 . 


6.3.2 ”对 于 连续 变量 比例 的 检验 


有 时 需要 检验 收入 低 于 某 个 水 平 的 人 占有 的 比例 p 是 否 和 预期 的 po 一 样 . 这 里 
的 原理 和 6.3.1 节 一 样 , 只 要 把 大 于 某 水 平 的 观测 值 看 作 Bernoulli 试 验 的 “成 功 ”， 
而 把 小 于 某 水 平 的 观测 值 看 成 “失败 ”, 就 回 到 二 项 分 布 的 问题 了 . 当然 , 用 不 着 把 
这 些 连续 变量 的 观测 值 都 变 成 “成 功 ” 和 “失败 ”之 后 , 再 数 各 有 多 少 . 统计 软件 会 
替 你 做 所 有 的 事情 . 下 面 通过 一 个 例子 来 说 明 . 


例 6.6 东 微 生物 的 寿命 问题 (数据 : life.txt) 这 里 有 某 微生物 在 一 种 污染 环 
境 下 生存 的 寿命 数据 (单位 : 小 时 ) 


2.12 2.21 0.26 0.04 0.27 2.12 0.42 1.73 0.22 0.12 1.89 0.72 1.73 0.26 1.99 
0.28 0.87 0.33 5.65 0.18 1.60 3.13 0.96 0.73 0.74 1.52 0.18 0.85 1.49 0.31 
1.01 1.51 1.79 2.30 0.02 0.06 1.44 0.08 0.14 1.14 0.01 0.15 1.50 0.14 0.69 
3.45 1.05 0.47 0.06 0.16 0.13 1.15 0.04 1.89 0.34 0.08 0.24 2.64 0.95 0.14 


问题 是 存活 时 间 低 于 2 小 时 的 是 否 少 于 70%( 存 活 时 间 多 于 2 小 时 的 是 否 多 
于 30%)? 因此 , 问题 的 零 假设 为 存活 时 间 低 于 2 小 时 的 少 于 或 等 于 70%, 而 备 选 候 
设 为 存活 时 间 低 于 2 小 时 的 多 于 70%. 该 检验 用 数学 语言 表示 为 , 对 于 po = 0.7， 


Ho: p=p 舍 Hi: p> po 


使 用 及 语句 


x=scan("]ife.txt") # 读 入 数 握 
binom.test(sum(x<2) ,60, .7,alter="greater") # 检 验 


可 得 p 值 等 于 0.002208, 而 且 还 表明 活 不 到 两 小 时 的 有 52 个 . 因此 , 可 以 拒绝 “存活 
时 间 低 于 2 小 时 的 少 于 70%” 的 零 假设 . 

这 个 检验 的 假设 还 可 以 有 另 一 种 等 价 形式 . 前 面 第 三 、 四 章 介绍 过 样本 和 总 
体 的 a 分 位 数 的 概念 . 例 6.6 的 检验 问题 等 价 于 检验 0.7 分 位 数 g 是 等 于 2(go = 2) 还 
是 小 于 2, 即 检验 : 0: gq= 二 qo 二 2 对 Hi: 9g < go = 2. 该 例 的 结论 是 实际 存活 
时 间 的 0.7 分 位 数 g 小 于 2 小 时 . 

上 面 的 检验 又 称 为 (推广 的 ) 符 号 检验 (sign test). 它 用 不 着 对 总 体 分 布 进行 
任何 假定 . 而 狭义 的 符号 检验 是 指 上 面 的 po = 0.5 或 者 (等 价 地 ) qo 等 于 中 位 数 的 
情况 . 通常 把 符号 检验 归于 非 参 数 检验 范畴 ( 见 下 一 节 ). 
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6.4” 非 参数 检验 
6.4.1 关于 非 参 数 检 验 的 一 些 常 识 


什么 是 非 参 数 检验 ? 


前 面 很 多 检验 都 假定 了 总 体 的 背景 分 布 . 但 也 有 些 检验 没有 假定 总 体 分 布 的 
具体 形式 , 这 些 检验 多 根据 数据 观测 值 的 相对 大 小 建立 检验 统计 量 , 然后 找到 在 
零 假 设 下 这 些 统计 量 的 分 布 , 并 且 看 这 些 统计 量 的 数据 实现 是 否 在 零 假 设 下 属于 
小 概率 事件 . 这 种 和 数据 本 身 的 总 体 分 布 无 关 的 检验 称 为 非 参 数 检验 ， 除了 本 节 
会 介绍 一 些 非 参 数 检验 之 外 , 本 书 其 他 章节 也 有 一 些 非 参数 检验 的 例子 : 比如 , 前 
面 对 于 连续 变量 比例 的 检验 , 第 七 章 列 联 表 中 的 Fisher 精 确 检验 , 列 联 表 分 析 中 
的 Pearson X 检 验 和 似 然 比 x? 检 验 等 都 可 以 认为 属于 非 参 数 检验 范畴 


非 参数 检验 有 什么 优越 性 ? 


非 参数 检验 在 总 体 分 布 未 知 时 有 很 大 的 优越 性 .在 分 布 未 知 时 , 如 果 还 假定 
总 体 有 诸如 正 态 分 布 那样 的 已 知 分 布 , 在 进行 统计 推断 就 可 能 产生 错误 甚至 灾难 . 
非 参数 检验 总 是 比 传统 检验 安全 但 是 在 总 体 分 布 形式 已 知 时 , 非 参数 检验 就 不 
如 传统 方法 效率 高 . 这 是 因为 非 参数 方法 利用 的 信息 要 少 些 . 往往 在 传统 方法 可 
以 拒绝 零 假设 的 情况 , 非 参 数 检验 无 法 拒绝 . 用 统计 的 术语 来 说 , 在 总 体 分 布 已 知 
时 , 传统 方法 有 较 大 的 势 (power), 效率 要 高 , 但 非 参数 统计 在 总 体 分 布 未 知 时 效 
率 要 比 假定 了 错误 总 体 分 布 时 的 传统 方法 要 高 , 有 时 要 高 很 多 . 


如 何 比较 检验 的 效率 ? 


这 里 所 说 的 效率 通常 用 两 种 检验 方法 的 渐 近 相对 效率 (ARE) 来 度量 . 
当 ARE 等 于 1 时 表示 两 者 效率 一 样 . 用 后 面 要 介绍 的 Wilcoxon 检 验 为 例 , 在 
与 通常 的 t 检 验 比 较 时 ， 如 果 已 知 总 体 是 正 态 分 布 ， Wilcoxon 检 验 相对 于 t 检 验 
的 ARE 为 0.864, 而 当 总 体 未 知 时 , 它 相 对 于 {t 检 验 的 ARE 在 某 些 情况 可 以 达到 无 
穷 大 . 由 此 可 见 非 参数 检验 的 优点 . 是 否 用 非 参数 统计 方法 , 要 根据 对 总 体 分 布 的 
了 解 程 度 来 确定 . 一 般 来 说 , 检验 刀 对 检验 胞 的 相对 效率 是 这 两 个 检验 在 拒绝 零 
假设 时 所 使 用 的 最 小 样本 量 z; 和 ”2 的 反比 : ns /ni. 显然 , 用 的 样本 量 越 少 , 效率 越 
高 . 渐 近 相对 效率 是 在 固定 显著 性 水 平 w 时 , 保持 两 个 检验 的 势 ( 即 不 犯 第 二 类 错 
误 的 概率 : 1 一 8) 不 变 时 , 让 mi 一 ce, 这 时 , 为 了 保持 势 一 样 , 必然 也 有 ns 一、 oc， 


秩 的 概念 


非 参数 检验 中 秩 (rank) 是 最 常 使 用 的 概念 . 什么 是 一 个 数据 的 秩 呢 ? 一 般 来 
说 , 秩 就 是 该 数据 按照 升 究 排列 之 后 , 每 个 观测 值 的 位 置 . 以 下 面 数据 为 例 (样本 
量 为 10): 
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15 9 18 3 17 8 5 13 7 19 
该 数据 按照 升 圭 重新 排列 , 成 为 
3 5 7 8 9 13 15 17 18 19 
加 上 它们 的 大 小 次 序号 (这 就 是 它们 的 秩 ), 得 到 
观测 值 3 5 7 8 9 13 15 17 18 19 
秩 1 2 3 4 5 6 7 8 9 10 
X 15 9 18 3 17 8 5 13 7 19 
R: 7 5 9 1 8 4 2 6 3 10 
这 下 面 一 行 ( 记 为 Rj) 就 是 上 面 一 行 数据 XX, 的 秩 ， 如 果 数 字 有 重复 , 那么 会 有 两 个 
秩 一 样 ; 比如 1, 2, 2, 3 四 个 数字 的 秩 为 1, 2.5, 2.5, 4. 
利用 秩 的 大 小 进行 推断 就 避免 了 不 知道 背景 分 布 的 困难 . 这 也 是 大 多 数 非 参 
数 检验 的 优点 . 多 数 非 参数 检验 明显 地 或 隐 含 地 利用 了 秩 的 性 质 , 但 也 有 一 些 非 
参数 方法 没有 涉及 秩 的 性 质 . 
一 些 非 参数 检验 的 计算 往往 有 多 种 选择 . 比如 列 联 表 分 析 中 的 许多 问题 都 有 
精确 方法 、Monte Carlo 抽 样 方法 和 用 于 大 样本 的 渐 近 方法 等 选择 . 精确 方法 比 
较 费 时 间 , 后 两 种 要 粗糙 一 些 , 但 要 快 些 . 
| 思考 一 下 : 
1. 传统 的 检验 是 在 产生 数据 的 总 体 分 布 已 知 时 所 用 的 . 实际 上 , 人们 没有 任何 办 
法 来 证 明 一 个 数据 产生 于 某 确 定 总 体 . 因此 , 最 多 只 能 说 , 用 某 个 检验 没有 发 
现 足 够 证 据 来 否认 一 个 数据 来 自 某 总 体 . 

2. 除了 本 节 所 涉及 的 基于 秩 的 非 参 数 统计 内 容 之 外 , 非 参 数 统计 还 有 另外 一 个 领 
域 , 即 非 参数 密度 估计 和 非 参 数 回归 等 . 它 和 基于 秩 的 非 参 数 统 计 从 目的 到 方 
法 很 不 一 样 . 























6.4.2 ”关于 单 标本 位 置 的 符号 检验 


前 面 介绍 过 关于 位 置 参 数 均值 的 t 检 验 . 那里 需要 假定 观测 值 的 总 体 分 布 是 正 
态 分 布 . 如 果 人 们 对 总 体 分 布 一 无 所 知 , 就 不 能 假定 正 态 分 布 , 也 不 能 进行 t 检 验 
了 . 这 时 , 就 可 以 用 符号 检验 (sign test), 它 是 对 位 置 参数 中 位 数 的 检验 , 而 且 不 
需要 任何 关于 总 体 的 假定 .当然 , 对 于 像 正 态 分 布 或 t 分 布 那样 的 对 称 分 布 , 总 体 
中 位 数 就 是 总 体 均值 , 这 时 , 对 中 位 数 的 检验 等 价 于 对 均值 的 检验 . 

其 实 , 前 面 已 经 通过 例 6.6 介 绍 过 符号 检验 (sign test) 以 及 推广 的 符号 检验 了 . 
那里 的 检验 是 以 两 种 等 价 的 形式 出 现 的 , 一 种 是 看 中 位 数 或 a 分 位 数 是 否 是 某 个 
事先 认定 的 值 ( 零 假 设 ), 一 种 是 大 于 (或 小 于 ) 某 数 的 观测 值 是 否 为 一 个 事先 认定 
的 比例 ( 零 假 设 ). 


第 六 章 ”简单 统计 推断 : 总 体 参 数 的 假设 检验 | 95 


由 于 在 6.3.2 节 已 经 对 广义 的 符号 检验 进行 了 较 详尽 的 分 析 . 这 里 仅仅 通过 一 
个 例子 对 于 较 简 单 的 狭义 符号 检验 作 一 描述 . 也 当成 是 对 6.3.2 节 的 复习 吧 . 


例 6.7 西洋 参数 据 (gs.txt) 质量 监督 部 门 对 商店 里 面 出 售 的 某 厂 家 的 西洋 
参 片 进行 了 抽查 . 对 于 25 包 写 明 为 净重 100g 的 西洋 参 片 的 称 重 结果 为 (单位 : 克 ): 
99.05 100.25 102.56 “99.15 104.89 101.86 96.37 96.79 99.37 
96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36 100.81 
92.99 103.72 90.66 98.24 97.87 99.21 101.79 
用 mm 表示 总 体 中 位 数 . 容易 计算 出 , 样本 中 位 数 为 98.36. 因此 , 人们 怀疑 厂家 包装 
的 西洋 参 片 份量 不 足 . 由 于 对 于 这 些 重量 的 总 体 分 布 不 清楚 , 决定 对 其 进行 符号 





Ho :m= 100© HH,:nm < 100. 


按照 零 假设 , 每 个 观测 值 (每 包 西 洋 参 的 净重 ) 大 于 中 位 数 mo = 100g 的 机 会 
和 小 于 100g 的 概率 都 是 0.5. 这 服从 二 项 分 布 Bin(25,0.5). 容易 算出 , 大 于 100g 的 
只 有 8 包 . 这 样 , 参数 为 n = 25,p = 0.5 的 二 项 分 布 变 量 小 于 或 等 于 8 的 概率 
为 0.05388. 这 就 是 p 值 . 因此 , 对 于 显著 性 水 平 a = 0.05, 根据 这 个 符号 检验 , 没有 
充分 的 证 据 拒 绝 零 假设 . 这 个 计算 的 代码 (包括 读 入 数据 ) 为 : 


x=scan("gs.txt") ;pbinom(sunmn(x>100) ,25, .5) 


大 于 等 假设 中 位 数 mo 的 个 数 等 于 所 有 观测 值 减 去 mo 之 后 所 得 的 符号 为 正 的 
差 的 个 数 , 而 小 于 mo 的 个 数 等 于 符号 为 负 的 差 个 数 . 上 面 例子 中 正 号 的 有 8 个 (用 
语句 sum《(x>100)), 负 号 的 有 17 个 (用 语句 sum (x<100))， 这 就 是 这 个 检验 之 所 以 
饭 称 为 符号 检验 的 原因 . 本 例 中 没有 等 于 100 克 的 包装 . 如 果 有 等 于 100 的 , 则 既 不 
相应 于 属于 正 号 , 又 不 相应 于 负 号 , 对 判断 没有 贡献 , 一 般 就 把 它 删除 了 . 但 对 于 
连续 型 变量 , 只 要 不 过 分 四 售 五 入 , 不 大 可 能 出 现 刚好 等 于 某 预 先 确 定 值 的 情况 . 


6.4.3 ”关于 单 样 本 位 置 的 Wilcoxon 符 号 秩 检验 


前 面 介 绍 的 符号 检验 利用 了 观察 值 和 零 假设 的 中 位 数 之 差 的 符号 来 进行 检 
验 , 但 是 它 并 没有 利用 这 些 差 的 绝对 值 的 大 小 所 包含 的 信息 . 不 同 的 符号 仅仅 代 
表 了 在 中 位 数 的 哪 一 边 , 而 差 的 绝对 值 的 秩 的 大 小 代表 了 距离 中 心 的 远近 . 如 果 
把 这 二 者 结合 起 来 , 自然 比 仅 仅 利用 正 负 号 的 数目 要 更 有 效 . 这 也 是 下 面 要 引进 
的 Wilcoxon 符号 秩 检 验 (Wilcoxon signed-rank test) 的 宗旨 . 它 把 差 的 绝 
对 值 的 秩 分 别 按照 不 同 的 符号 相 加 作为 其 检验 统计 量 . 

注意 , 和 符号 检验 不 同 . Wilcoxon 符 号 秩 检 验 需 要 一 点 对 数据 总 体 分 布 的 了 
解 或 假定 , 它 要 求 假定 样本 点 来 自 连续 对 称 总 体 分 布 , 而 符号 检验 不 需要 知道 任何 
总 体 分 布 的 性 质 ， 在 对 称 分 布 中 , 总 体 中 位 数 和 总 体 均 值 是 相等 的 , 因此 , 对 于 来 
目 连 续 对 称 总 体 的 数据 来 说 , 对 总 体 中 位 数 的 检验 , 等 价 于 对 于 总 体 均 值 的 检验 . 

Wilcoxon 符 号 秩 检 验 的 原理 是 这 样 的 .假定 x1,..., x 为 来 自 连续 对 称 总 
体 的 一 个 样本 ， 如果 问题 的 零 假设 为 中 位 数 (均值 )mp;，= ro， 对 于 符号 检验 
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只 要 计算 在 "个 差 z; 一 mo (i = 1,...,n) 中 有 和 多少 正 负 符 号 , 即 可 利用 二 项 分 
布 的 概率 来 计算 p 值 . 但 对 于 Wilcoxon 符 号 秩 检验 , 则 要 把 那些 |zx; -- mo| 排 序 ， 
得 到 |z; 一 mo| 的 秩 ， 然 后 把 x; 一 mo 的 符号 加 到 相应 的 秩 上 面 ， 于是, 可 以 得 
到 既 有 带 正 号 的 秩 , 又 有 带 负 号 的 秩 ， 对 带 负 号 的 秩 的 绝对 值 求 和 , 即 把 满 
足 2i 一 mo < 0 的 |z; 一 mo| 的 秩 求 和 , 并 用 全 一 表示 . 类 似 地 , 对 带 正 号 的 秩 的 绝对 
值 也 求 和 , 即 把 满足 x; 一 mo > 0 的 |zxi 一 mo| 的 秩 求 和 , 并 用 W+ 表 示 !. 如 果 mo 的 
确 是 中 位 数 , 那么 , W- 和 WT1+ 应 该 大 体 上 差不多 . 如 果 瑟 -或 者 W+ 过 大 或 过 小 ， 
则 怀疑 中 位 数 m = no 的 替 假 设 . 令 W = min(W-,W+), 则 当 食 太 小 时 , 应 该 拒 
绝 零 假设 .这 个 WW 就 是 Wilcoxon 符 号 秩 检 验 统 计量 . 一 般 的 书 上 都 有 其 分 布 表 . 
当然 , 用 不 着 查 表 来 得 到 wp 值 , 计算 机 会 做 所 有 的 繁琐 事情 . 

下 面 用 例 6.7 来 说 明 Wilcoxon 符 号 秩 检验 . 当然 , 应 该 先 假定 例 6.7 的 样本 来 自 
对 称 的 连续 总 体 分 布 才 行 . 这 里 的 检验 和 前 面 的 符号 检验 的 目的 一 样 , 也 是 检验 


20 :人 一 100 仿 万 :mm < 100. 


使 用 RR 语句 wilcox.test(x,m=100,alt="less"), 得 到 Wilcoxon 符 号 秩 检 
验 的 p 值 为 0.04763. 这 比 前 面 的 符号 检验 的 p 值 (0.05388) 要 小 , 所 以 , 如果 数 
据 来 自 对 称 分 布 , 用 Wilcoxon 符 号 秩 检验 比 符号 检验 效率 要 高 , 在 显著 性 水 
平 a = 0.5 时 , 可 以 拒绝 零 假设 . 


6.4.4 关于 随机 性 的 游程 检验 (runs test) 


游程 检验 方法 是 检验 一 个 取 两 个 值 的 变量 的 这 两 个 值 的 出 现 是 否 是 随机 的 . 
假定 下 面 是 由 0 和 1 组 成 的 一 个 这 种 变量 的 样本 (数据 run1.sav): 


0000111111001011100000000 


其 中 相同 的 0( 或 相同 的 1) 在 一 起 称 为 一 个 游程 (run), 单独 的 0 或 1 也 算 . 上 面 这 个 
数据 中 有 4 个 由 0 组 成 的 游程 和 3 个 由 1 组 成 的 游程 . 一 共 是 R= 7 个 游程 . 其 中 0 的 
个 数 为 m 二 15, 而 1 的 个 数 为 n = 10. 出 现 0O 和 1 的 这 样 一 个 过 程 可 以 看 成 是 参数 
为 某 未 知 p 的 Bernoulli 试 验 . 但 在 零 假设 :“ 给 定 了 m 和 n 之 后 , 0 和 1 的 出 现 是 随机 
的 ”之 下 , 游程 数目 R 的 条 件 分 布 就 和 这 个 参数 无 关 了 . 根据 初等 概率 论 , 在 零 假 
设 下 , R 的 分 布 可 以 写成 ( 令 N = mi 十 n) 


0 (7 一 ( 一 
上 一 1 /KE 一 1 
Pp =2k= 一 人 
(2 ) ry 
nn 
:对 于 假定 的 连续 分 布 , z; 一 mo = 0 的 概率 为 零 , 因此 不 应 该 出 现 , 但 由 于 四 含 五 入 的 原因 ,的确 会 出 


现 zi 一 mo = 0 的 情况 , 而 且 在 统计 量 的 计算 z 值 时 , 也 有 大 量 的 比较 , 可 能 会 出 现 本 应 不 相等 的 两 个 连续 变 
量 的 值 相 等 的 情况 , 这 时 软件 会 自动 转换 成 近似 公式 来 检验 了 . 
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TIRE 
P(R= 2k+1)= Ry 
(5) 
于 是 束 可 以 算出 在 零 假设 下 有 关 RR 的 概率 , 以 及 进行 有 关 的 检验 了 . 利用 上 面 公式 
可 进行 精确 检验 , 也 可 以 利用 大 样本 的 渐 近 分 布 和 利用 Monte Carlo 方 法 进行 检 


验 了 . 对 于 数据 (runl.txt), 利用 程序 包 tseries! 中 的 函数 runs .test(), 运行 下 
面 及 语句 (包括 读 入 数据 ): 


library(tseries);x=scan("runi.txt") ;runs.test(factor(x)) 


得 到 p 值 为 0.01052. 因此 对 于 显著 性 水 平 0.05, 可 以 拒绝 零 假设 , 即 认为 这 个 数据 
的 0 和 1 的 出 现 不 是 随机 的 . 

当然 , 游程 检验 并 不 仅仅 用 于 只 取 两 个 值 的 变量 , 它 还 可 以 用 于 某 个 连续 变 
量 的 取 值 小 于 某 个 确定 值 及 大 于 该 值 的 个 数 ( 类 似 于 0 和 1 的 个 数 ) 是 否 随机 的 问题 
看 下 面 例子 . 


例 6.8 化 妆 品 数据 (run2.txt) 从 某 装 瓶 机 出 来 的 30 盒 化 妆 品 的 重量 如 下 ( 单 
位 : 殉 ) 
71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 
71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 
68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9 


为 了 看 该 装 瓶 机 是 否 工作 正常 , 首先 需要 验证 大 于 和 小 于 中 位 数 的 个 数 是 否 是 随 

机 的 ( 零 假设 为 这 种 个 数 的 出 现 是 随机 的 )， 如 果 把 小 于 中 位 数 的 记 为 0, 否则 记 

为 1, 上 面 数据 变 成 下 面 的 0 和 1 的 序列 
111111110111101000000000000110 

这 就 归 为 上 面 的 问题 . 用 下 面 语句 


library(tseries) ;x=scan("run2.txt") 
runs.test (factor(x>median (x))) 


得 到 p 值 为 0.00295. 因此 对 于 大 于 0.005 的 显著 性 水 平 , 可 以 拒绝 零 假设 , 即 有 理 
由 认为 这 30 盒 化 妆 品 的 重量 小 于 中 位 数 和 大 于 中 位 数 的 情况 的 出 现 不 是 随机 的 . 
注意 : 这 里 的 R 函 数 runs .test() 不 是 精确 检验 . 可 以 很 容易 地 编 一 个 游程 检验 
精确 的 程序 ( 见 后 面 6.6.2 节 ). 


6.4.5 ”比较 两 独立 总 体 中 位 数 的 Wilcoxon (Mann-Whitney) 秩 和 检验 


前 面 说 过 的 关于 正 态 总 体 均值 的 检验 需要 知道 或 假定 所 感 兴趣 的 总 体 是 近 
似 正 态 分 布 . 然而 , 在 许多 情况 , 这 种 正 态 总 体 的 假定 是 不 可 靠 的 ， 能 否 在 总 体 


1Adrian Trapletti and Kurt Hornik (2012). tseries: Time Series Analysis and Computational 
Finance. R package version 0.10-29. 
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分 布 不 知道 的 时 候 有 办 法 来 检验 两 个 总 体 的 中 位 数 是 否 相等 呢 ? 这 里 介绍 常用 
的 Wilcoxon( 或 称 Mann-VWhitney) 秩 和 检验 . 它 的 原理 很 简单 , 假定 第 一 个 
样本 有 m 个 观测 值 , 第 二 个 有 nn 个 观测 值 . 把 两 个 样本 混合 之 后 把 这 mm 十 ?个 观 
测 值 按照 大 小 次 序 排序 , 然后 记 下 每 个 观测 值 在 混合 排序 下 面 的 秩 ， 之 后 分 别 
把 两 个 样本 所 得 到 的 秩 相 加 ， 记 第 一 个 样本 观测 值 的 秩 的 和 为 Wx 而 第 二 个 样 
本 秩 的 和 为 Wy. 这 两 个 值 可 以 互相 推算 , 称 为 Wilcoxon 统 计量 .该 统计 量 的 
分 布 和 两 个 总 体 分 布 无 关 . 由 此 分 布 可 以 得 到 p 值 . 直观 上 看 , 如 果 Wx 与 Wy 之 
中 有 一 个 显著 地 大 (或 显著 地 小 )， 则 可 以 选择 拒绝 零 假 设 ， 这 个 检验 就 称 
为 Wilcoxon 秩 和 检验 , 也 称 Mann-Whitney 检 验 . 之 所 以 有 两 个 名 称 是 因为 有 
两 个 分 别 由 Wilcoxon 和 Mann-Whitney 导 出 的 检验 统计 量 . 虽然 这 两 个 统计 量 不 
同 , 但 它们 是 等 价 的 ， 该 检验 需要 的 唯一 假定 就 是 两 个 总 体 的 分 布 有 类 似 的 形 
状 (不 一 定 对 称 ). 


例 6.9 GDP 数 据 (gdp.txt) 这 是 地 区 1 的 10 个 城市 和 地 区 2 的 15 个 城市 城镇 
人 口 的 人 均 GDP( 元 ). 现在 要 想 以 此 作为 两 个 样本 来 检验 两 个 地 区 的 城镇 人 口 
的 人 均 GDP 的 总 体 中 位 数 m]j 和 ms 是 否 一 样 , 即 双 尾 检验 Ho : mi = ms 命 H, : 
m1 关 m2， 由 于 地 区 2 的 样本 人 均 GDP 的 样本 中 位 数 大 于 地 区 1 的 中 位 数 , 因此 也 
可 以 做 单 尾 检 验 Ho : mi = mz 舍 囊 :mi < ma. 

用 下 面 R 代 人 码 (包括 输入 数据 ) 做 单位 检验 : 
w=read.table("gdp.txt'") 
wilcox.test(w[w[,2]==1,1] ,wLw[L,2]==2 ,1] ,alt='"less') 


得 到 p 值 为 0.008138. 这 个 例子 的 结果 表明 , 如 果 显 著 性 水 平 选 为 0.01, 则 可 以 拒 
绝 原 假设 , 即 有 理由 认为 地 区 2 的 人 均 GDP 的 中 位 数 要 高 一 些 . 


6.5 ”从 一 个 例子 说 明 “ 接 受 零 假设 ”的 说 法 不 妥 


虽然 前 面 已 经 有 了 一 些 例子 说 明 “ 接 受 零 假设 "说 法 的 不 妥 , 但 有 些 人 还 可 能 
会 对 于 在 检验 结果 不 显著 时 只 能 说 “不 能 拒绝 零 假设 "而 不 能 说 “接受 零 假设 ”感到 
不 解 . 下 面 用 一 个 描述 性 例子 来 说 明 . 


例 6.10 (数据 : rice.txt) 一 个 大 米 加 工厂 卖 给 一 个 超市 一 批 标明 10kg 重 的 
大 米 . 而 该 超市 怀疑 该 厂家 缺 斤 短 两 , 对 10 包 大 米 进行 了 称 重 , 得 到 下 面 结果 ( 单 
位 : 干 克 ) 

9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87 

这 里 假定 打包 的 大 米 重 量 服从 正 态 分 布 . 由 于 发 生 分 歧 , 于 是 各 方 同意 用 这 个 
数据 进行 关于 大 米 重 量 均值 /的 检验 , 以 厂家 所 说 的 平均 重量 为 10kg 作 为 零 假 设 ， 
而 以 超市 怀疑 的 份量 不 足 10kg 作 为 备 选 假设 : 

有 :HA=10 今 万 :人 < 10. 


于 是 , 超市 、 加 工厂 老板 和 该 老板 的 律师 都 进行 了 检验 . 结果 是 : 
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. 超市 用 全 部 数据 进行 t 检 验 ， 得 到 拒绝 零 假设 的 结论 。 他们 根据 计算 (用 语 
他 t .test (x,m=10,alt="less")) 得 到 : 样本 均值 为 9.92kg, 而 p 值 为 0.0106. 
因此 超市 认为 , 对 于 显著 性 水 平 a = 0.05, 应 该 拒绝 零 假设 . 


2. 大 米 加 工厂 老板 只 用 2 个 数据 ， 得 到 “接受 零 假设 ”的 结论 。， 大 米 加 工厂 老 
板 也 懂 些 统计 , 他 只 取 了 上 面 样本 的 头 两 个 数目 9.93 和 9.83 进 行 同样 的 t 检 验 . 
通过 对 这 两 个 数 进行 计算 (用 语句 t.test(x[1:2] ,m=10,alt="less")) 得 到 : 
样本 均值 为 9.88kg, 而 p 值 为 0.1257. 虽然 样本 均值 不 如 超市 检验 的 大 , 但 p 值 大 
大 增加 . 加 工厂 老板 于 是 下 了 结论 : 对 于 水 平 a = 0.05,“ 接 受 零 假设 ”, 即 加 工 
厂 的 大 米 平均 重量 的 确 为 10kg. 


3. 大 米 加 工厂 老板 的 律师 用 了 全 部 数据 ,但 不 同 的 检验 方法 ， 得 到 “ 接 
受 零 假设 ”的 结论 。 大 米 加 工厂 老板 的 律师 说 可 以 用 全 部 数据 .他 利 
用 6.3.2 节 对 于 连续 变量 比例 的 检验 ,， 也 就 是 关于 中 位 数 的 符号 检验 (注意 
对 于 正 态 分 布 , 对 中 位 数 的 检验 等 价 于 对 均值 的 检验 )， 根 据 计 算 ( 用 语 
名 pbinom(sum(x>10) ,length(x) , .5)), 得 到 该 检验 的 p 值 为 0.0547.， 所 以 
这 个 律师 说 在 显著 性 水 平 a = 0.05 时 , 应 该 “接受 零 假设 ”. 还 说 :“ 既 然 三 个 检 
验 中 有 两 个 都 接受 零 假设 , 就 应 该 接受 .” 


显然 后 面 两 个 人 的 做 法 是 不 对 的 , 为 什么 上 昵 ? 

加 工厂 老板 实际 上 减少 了 作为 证 据 的 数据 , 因此 只 能 得 到 “证 据 不 足 , 无 法 掉 
绝 零 假设 "的 绪论 . 但 加 工厂 老板 利用 一 些 统计 教科 书 的 错误 说 法 , 把 “证 据 不 足 
以 拒绝 零 假 设 ” 说 成 “接受 零 假 设 ” 了 .而且 ， 从 样本 中 仪 选择 茶 尝 数目 (等 于 销毁 
证 据 ) 违 背 统 计 道 德 . 

律师 虽然 用 了 全 部 数据 , 但 用 了 不 同 的 方法 . 他 也 只 能 够 说 “在 这 个 检验 方法 
下 , 证 据 不 足以 拒绝 零 假 议 ” 而 不 能 说 “接受 零 假 设 "， 另 外 , 律师 对 超市 用 更 有 效 
的 检验 方法 得 到 的 “拒绝 零 假 设 ” 的 结论 视而不见 , 这 也 违背 了 统计 原理 . 其 实 , 对 
于 同一 个 检验 问题 , 可 能 有 多 种 检验 方法 . 但 只 要 有 一 个 拒绝 , 就 可 以 拒绝 . 那些 
不 能 拒绝 的 检验 方法 是 能 力 不 足 . 用 统计 术语 来 说 , 该 拒绝 而 不 能 拒绝 的 检验 方 
法 是 势 (power) 不 足 , 或 者 效率 (e 秆 ciency) 低 . 


关于 例 6.10 的 总 结 
该 例 进 行 了 对 于 同样 假设 检验 问题 的 三 次 检验 , 得 到 三 个 结果 . 该 例 说 明了 几 
个 问题 : 


1. 在 已 经 得 到 样本 的 情况 下 , 随意 舍 取 一 些 数目 是 违背 统计 原理 和 统计 道德 的 . 
这 相当 于 算 改 或 毁灭 证 据 . 


2. 由 于 证 据 不 足 而 不 能 拒绝 等 假设 绝对 不 能 说 成 “接受 零 假设 ". 如 果 一 定 要 说 ， 
请 给 出 你 接受 零 假设 所 可 能 犯 第 二 类 错误 的 概率 (这 是 无 法 算出 的 ). 这 是 加 工 
厂 老板 和 律师 所 犯 的 错误 . 


100 统计 学 ;从 数据 到 结论 


3. 例 中 律师 的 检验 和 超市 所 做 的 检验 都 针对 同样 的 检验 问题 , 但 由 于 超市 的 
检验 方法 比 律师 的 检验 更 强大 (或 更 强势 more powerful, 更 有 效率 ,more 
efficient), 所 以 超市 拒绝 了 零 假 设 , 而 律师 的 检验 则 不 能 拒绝 . 如 果 有 针对 同一 
检验 问题 的 许多 检验 方法 , 那么 , 只 要 有 一 个 拒绝 ,就 必须 拒绝 . 绝对 不 能 “ 少 
数 服 从 多 数 ”, 也 不 能 “视而不见 ”. 


4. 以 关于 均值 的 t 检 验 为 例 , 实际 上 , 只 要 零 假设 的 均值 和 样本 均值 的 确 不 一 样 ， 
那么 根据 检验 统计 量 的 公式 可 以 看 出 , 如 果 样 本 量 不 断 增 大 , 就 必然 会 拒绝 零 
假设 . 这 从 例 6.5 关 于 比例 的 检验 也 可 以 看 出 , 当然 , 对 于 效率 较 低 的 检验 , 要 抱 
绝 零 假 设 所 需要 的 样本 量 较 大 . 


5. 在 本 书 介绍 的 各 种 检验 中 , 只 要 样本 量 充分 小 , 就 必定 不 能 拒绝 零 假 设 , 如 果 这 
可 以 解释 为 “接受 零 假 设 "的 话 , 那么 减少 样本 量 就 荒 廖 地 成 为 得 到 “接受 零 假 
设 ” 的 最 佳 途经 . 


6.6 ”小结 


6.6.1 本 章 的 概括 和 公式 


假设 检验 是 关于 总 体 参数 的 . 为 假设 检验 所 建立 的 检验 统计 量 的 分 布 是 基于 
等 假设 的 . 备 选 假设 是 对 立 于 零 假 设 而 立 的 , 备 选 假设 一 般 直观 上 被 数据 所 支持 . 
最 终 判 断 需要 看 检验 统计 量 所 取 到 的 (代入 数据 所 得 到 的 ) 实 现 值 或 更 极端 (更 有 利 
于 备 选 假设 ) 的 值 的 概率 而 定 . 这 个 概率 称 为 p 值 . p 值 越 小 就 越 有 理由 拒绝 零 假设 . 
如 琳 零 假设 为 真 而 拒绝 了 零 假设 , 称 为 犯 第 一 类 错误 , 如 果 备 选 假设 为 真 而 接受 截 
假设 , 称 为 犯 第 二 类 错误 . 


1. 假设 检验 的 步骤 


第 一 , 写 出 零 假 设 和 备 选 假设 ; 第 二 , 确定 检验 方法 (前 计算 机 时 代 要 确定 检验 
统计 量 的 公式 ); 第 三 , 计算 p 值 , 如 果 p 值 小 于 或 等 于 某 头脑 中 的 显著 性 水 平 a, 就 
拒绝 零 假设 , 这 时 犯错 误 的 概率 最 多 为 a, 如 果 p 值 大 于 a, 就 不 拒绝 零 假设 , 因为 
证 据 不 足 . 

在 前 计算 机 时 代 , 上 面 第 三 步 是 确定 显著 性 水 平 a; 第 四 步 是 计算 检验 统计 量 
的 实现 值 ; 第 五 步 为 用 实现 值 和 表 中 相应 于 a 的 临界 值 比较 来 决定 检验 是 否 显著 . 


2. 关于 一 个 正 态 总 体 均值 的 单 尾 和 双 尾 检验 (两 个 方向 的 单 尾 和 一 种 双 尾 ) 


Ho:H=uo 人 Hi:k < wo; 
Ho:u=k0 人 Hi:h > po; 
Ho:u=uo0 人 OHi:h #0. 
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检验 统计 量 均 为 在 零 假 设 下 具有 n 一 1 个 自由 度 的 t 分 布 的 统计 量 
炎 一 /0 
‘7 /Va 
据 此 可 以 计算 尾 概 率 (该 统计 量 取 其 实现 值 或 更 极端 值 的 概率 )p 值 . 如 果 p 值 很 小 ， 
则 拒绝 零 假 设 , 否则 没有 足够 理由 拒绝 . 


3， 关于 两 个 独立 正 态 总 体 均值 差 的 单 尾 和 双 尾 检验 


这 里 分 总 体 方差 相等 和 不 相等 两 种 情况 . 实际 上 , 根本 无 法 根据 数据 证 明 两 
个 总 体 方 差 相 等 . 用 方差 的 假设 检验 可 以 拒绝 方差 相等 . 但 有 人 觉得 可 以 用 证 据 
不 足以 拒绝 方差 相等 的 零 假设 可 以 “证 明 ” 两 个 总 体 方 差 相 等 ， 这 完全 是 错误 的 . 
因为 在 小 样本 时 , 基本 上 都 无 法 拒绝 方差 相等 的 假设 , 这 只 能 说 证 据 不 足 , 因而 仍 
然 把 方差 相等 作为 一 个 假定 (而 不 是 事实 !) 





Ho:p -hs = Do Hi:m -p> Do; 
Ho:p -k= Do Hi:p- pH < Do; 
Ho:pH— k= Do HH: — kh A Deo. 
这 里 最 经 常 的 情况 为 Do = 0 的 情况 . 
假定 两 总 体 方差 相等 假定 下 的 公式 . 检验 统计 量 为 在 零 假 设 下 具有 mi 十 ma 一 


2 个 目 由 度 的 t 分 布 的 
(5 一 2) 一 Do 


l | ) 
亿 1 Tho 


+ 二 


sp( 


这 里 

(mil 一 1)s1 十 (ma — 1)s2 

?1 十 Thz 一 2 

zi1 和 7x2 为 两 个 样本 的 均值 , m1 和 ns 为 两 个 样本 量 , 而 s; 和 ss? 为 两 个 样本 标准 差 . 
假定 两 总 体 方差 不 相等 假定 下 的 公式 . 检验 统计 量 为 


(7z1 ~ 72) — Do 


2 __ 
Sp 一 , 


它 近似 地 具有 如 下 定义 的 自 由 度 E 的 t 分 布 : 


51 82 
ni(m—1) nz(n2—1) 


注意 : 在 一 些 教科 书 中 , 关于 均值 的 检验 还 分 大 样本 和 小 样本 之 别 , 大 样本 的 
统计 量 近 似 地 用 正 态 分 布 , 而 小 样本 用 t 分 布 . 这 是 计算 机 大 量 使 用 之 前 , 完全 依赖 
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查 表 时 的 产物 . 在 计算 机 软件 中 , 一 般 用 不 着 另外 设置 
4. 关于 一 个 总 体 比例 的 单 尾 和 双 尾 检验 (大 样本 近似 公式 ) 


Ho:p=p OHi:p> po: 
Ho:p=po 人 SH:p< po; 
Ho:p=p SH:p@#A po. 

最 简单 的 办 法 是 在 零 假 设 下 的 二 项 分 布 模型 Bin(n, po) 下 通过 概率 P(X < 
7) 来 计算 p 值 . 如 非 要 求 近似 解 , 则 可 以 用 在 零 假设 下 为 近似 标准 正 态 的 检验 统计 
量 ( 这 里 记 D = x/n): 

-po 
poll 一 po) 
nT, 
而 判别 大 样本 的 一 个 粗略 的 必要 条 件 为 
po +3 PP) 
必须 完全 在 (0, 1) 区 间 之 内 , 否则 就 说 明 样本 不 够 大 . 


5. 关于 两 个 独立 总 体 比例 之 差 的 单 尾 和 双 尾 检验 (大 样本 近似 公式 ) 


Ho:p1—p2 = DoS Hi:pi— p22 > Do: 

Ho:p—p= Do HH:pi 一 D2 < Do; 

Ho:p1—p2= Do Hi:pi— po # Do. 
注意 ,上 面 的 Do 在 大 多 数 应 用 情况 假设 等 于 0(D。 = 0) 以 检验 两 个 总 体 比 例 
是 否 相 等 . 在 零 假设 下 为 近似 标准 正 态 的 检验 统计 量 为 (这 里 记 = ZT1/n1, pz = 


ZT2/n2) _ _ 
21 一 22 一 二 0 


2 二 一 一 一 一. 
[Pi(l 一 方 ) 上 D2(1 — po) 
nl [i 
6.， 关于 非 参数 检验 


非 参 数 检验 的 精确 公式 大 都 没有 显 式 , 或 者 是 一 组 公式 , 或 者 是 一 个 程序 . 但 
各 种 大 样本 近似 检验 倒是 有 很 多 公式 , 笔者 不 想 在 这 里 次 述 
6.6.2 ”BR 语 名 的 说 明 


下 面 仅仅 介绍 精确 检验 的 算法 , 对 于 前 计算 机 时 代 的 近似 算法 的 遗产 , 前 面 已 
经 介绍 得 太 多 , 这 里 可 能 仅 简 单 提 及 . 
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1。 关于 一 个 正 态 总 体 均值 的 检验 


考虑 6.2.1 节 例 6.1 的 红糖 例子 (数据 在 sugar.txt), 要 检验 
HF: n=500 © Hi: y< 500. 


这 是 正 态 总 体 的 均值 检验 . 可 以 用 x=scan("sugar.txt") 来 在 R 中 读 入 数据 ， 
对 于 一 般 问题 , 根据 需要 选择 下 面 命 令 之 一 : 
t.test(x,m=m0) #( 双 边 检验 ) 
t.test(x,m=m0,alt="greater'") #( 右 尾 检验 ) 
t.test(x,m=m0,alt="less") #( 左 尾 检验 ) 


对 于 本 例 , 用 t .test (x,m=500,alt='"less") 即 可 得 到 下 面 输出 : 


Une Sample t-test 
data: Xx 
t = -2.6962, df = 49, p-value = 0.004793 
alternative hypothesis: true mean is less than 500 
95 percent confidence interval: 
-lnf 499.3749 

sample estimates.: 
mean of Xx 

498.3472 


输出 中 , 除了 表明 统计 量 为 一 2.6962, 自由 度 为 49, p 值 为 0.004793 之 外 , 还 说 
明了 备 选 假设 及 单 边 的 95 宛 置信 区 间 ( 检 验 是 单 尾 的 , 置信 区 间 也 是 半 开 区 间 )， 
最 后 还 给 出 了 样本 均值 作为 均值 的 估计 : 498.3472， 如 果 只 想 输 出 p 值 ， 则 用 语 
人 种 t .test (x,m=500,alt="less")$p.value 即 可 (上 面 输出 中 的 任何 值 都 可 以 单 
独 输 出 ). 

2. 关于 两 个 独立 正 态 总 体 均 值 的 检验 
考虑 6.2.2 节 例 6.3 的 关于 服药 者 的 心理 测试 例子 (数据 在 drug.txt, 这 里 ah 为 测 
试 指标 , id 为 区 别 这 两 类 的 代码 ). 这 里 用 两 独立 正 态 总 体 均值 差 的 检验 
Ho: Mi 一 ja=Do 兮 有 站:HM 一 Ha> Do. 
”在 R 中 , 对 于 该 数据 , 在 用 命令 x=read.table('"drug.txt",header=T) 输 入 
数据 之 后 , 为 了 符号 简单 , 我 们 把 两 个 样本 分 开 : 
x=w[w[,21==1,1] ;y=w[w[,2]==2,1] 
一 个 用 代码 x, 另 一 个 用 代码 y 表 示 . 对 于 一 般 问题 , 根据 需要 选用 下 面 命令 之 一 : 


t.test(x,y,m=DO) #( 双 边 检 验 ) 
t.test(x,y,m=D0,alt="greater") #( 右 尾 检验 ) 
t.test(x,y,m=D0,alt="less") ， #( 左 尾 检 验 ) 


对 本 例 Do = 0, 用 t .test (x,y,alt="greater'"), 得 到 下 面 输出 : 
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Welch Two Sample t-test 
data: x and y 
t = 0.9419, df = 234.348, p-value = 0.1736 
alternative hypothesis: true difference 
in means is greater than 0 
95 percent confidence interval: 
-0.373638 Inf 
sample estimates: 
mean of x mean of vy 
8.598 8.102 


输出 中 , 除了 表明 统计 量 为 0.9419， 自 由 度 为 234.348, p 值 为 0.1736 之 外 (这 
里 假定 了 两 总 体 方差 不 等 ), 还 说 明了 备 选 假设 及 单 边 的 95% 置 信 区 间 ( 也 是 半 
开 区 间 ), 最 后 还 给 出 了 两 个 样本 均值 : 8.598，8.102， 如 果 只 想 输 出 z 值 , 则 用 语 
句 t.test(x,y,alt="greater")$p.value 即 可 (上 面 输出 中 的 任何 值 都 可 以 单 
独 输出 ). 


3.， 成 对 正 态 样本 的 均值 检验 


使 用 6.2.3 节 例 6.4 减 肥 数 据 (diet.txt)， 其 中 一 列 数据 是 减肥 前 的 重量 ， 
男 一 列 是 减肥 后 的 重量 (单位 : 公斤 ).， 在 R 中 ， 对 于 该 数据 可 以 用 
命令 x=read.table("diet.txt",header=T) 输 入 数据 ， 用 attach(x) 之 后 (把 
变量 名 字 before 和 after 放 入 内 存 )， 类 似 于 前 面 ， 也 有 各 种 单 属 及 双 
尾 检 验 ， 对 于 本 数据 用 t.test(before，after ， alt="greater'" ,pair=T) 或 
者 t .test(before-~after，alt="greater") 可 输出 同样 结果 . 结果 形式 和 前 面 
的 类 似 , 这 里 不 再 罗列 . 
4. 关于 总 体 比 例 的 检验 

以 6.3.1 节 的 例 6.5 (数据 twop.sav) 为 例 . 由 于 数据 简单 , 不 用 输入 数据 ， 对 于 
单 样本 检验 Ho : p = 0.25 人 吉 本 : p < 0.25 的 情况 , 如 果 n = 1500, z = 
0.23 x 1500 = 345, 则 该 检验 可 用 binom.test(345 ,1500, .25,alt="less") 得 
到 结果 , 或 者 用 pbinom(0.23*1500,1500, .25) 得 到 p 值 . 

对 于 后 面 的 两 样本 问题 Ho : pi 一 pz = 二 Do=0 人 车 到: pi 一 po < 0, 如 
果 n1 = 1200, zi = 0.2 x 1200 = 240, 而 ns = 1300, x, = 0.21 x 1300 = 273, 则 
可 以 用 binom.test(c(240 ,273) ,c(1200,1300) ,alt='"less") 得 到 结果 . 


5. 关于 连续 变量 比例 的 检验 


以 6.3.2 节 例 6.6 数 据 life.txt 为 例 . 在 RR 中 , 用 x=scan ("life.txt") 输 入 数据 . 
用 二 项 分 布 模型 得 到 精确 p 值 的 语句 为 


binom.test (sum(x<2) ,60, .7,alter="greater") 


及 的 综合 输出 可 能 会 有 很 多 结果 同时 展示 , 但 也 可 以 单独 输出 , 这 对 编程 
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很 方便 . 以 6.2.1 节 例 6.1 的 sugar 数 据 为 例 , 在 用 x=scan("sugar.txt") 输 入 数据 
之 后 , 如果 把 检验 结果 存放 到 (比如 a 中 ):a=t .test (x,m=500,alt="less"), 再 
用 names (a) 看 有 什么 可 以 单独 输出 的 , 这 时 可 以 看 到 屏幕 上 打印 出 9 个 内 容 : 


[1] "statistic" "parameter" 'p.value" "conf.int" nestimaten 
[6] "null.value" "alternative'" "method" "data.namen 


这 些 内 容 都 可 以 单独 输出 . 比如 , 可 以 用 a$s ( 写 全 了 应 该 是 a$statistic) 输 
出 t 统 计量 的 值 , 用 a$pa ( 写 全 了 应 该 是 a$parameter) 输 出 自由 度 ( 这 里 不 能 简写 
为 a$p, 因为 会 与 a$p .value 混 浠 ), 用 a$p.v ( 写 全 了 应 该 是 atp .value) 输 出 p 值 
等 等 . 


6. 关于 总 体 中 位 数 的 符号 检验 


就 例 6.7 来 说 , 只 要 输入 x=scan("gs.txt") ;pbinom(sum(x>=100) ,25, .5) 即 
.可 得 出 p 值 . 


7. 关于 单 样 本 的 Wilcoxon 符 号 秩 检验 


就 例 6.7 来 说 , 只 要 输入 wilcox.test(x,m=100,alt="less") 即 可 得 出 所 有 
结果 . 


8， 关于 随机 性 的 游程 检验 
就 例 6.7 来 说 , 只 要 输入 下 面 语句 


library(tseries);x=scan("run2.txt");runs.test(factor (x>median(x))) 


可 得 到 各 种 结果 , 包括 p 值 等 于 0.00295. 但 这 个 程序 是 用 的 大 样本 正 态 近似 . 下 面 
给 出 笔者 自己 编 的 精确 检验 的 函数 , 它 给 出 了 精确 p 值 为 0.002261331. 


runstest=function(y,cut=0){if(cut!=0)x=(y>cut)*1 else x=y 
N=length (x) ;k=1 

for(i in 1:(N-1))if (x[i]!=x[i+1])k=k+1; r=k;m=sum(1~x) :n=N-m 
Pl=function (m,n ,k) 

{2*choose(m-1,k-1)/choose (m+n,n)*choose(n-1,k-1)} 
P2=function(m,n,k) 
{choose(m-1,k-1)*choose(n-1,k)/choose (mtn,n)+ 
choose(m-1,k)*choose(n-1,k-1)/choose (mt+n,n)} 
r2=floor(r/2);if(r2==r/2) {pv=0;for(i in 1:r2)pv=pv+P1 (m,n,i) 
for(i in 1:(r2-1))pv=pv+P2(m,n,i)}else 

{pv=0;for(i in 1:r2)pv=pv+Pi(m,n,i); for(i in 1:52)pvapv+p2 (m,n, 1)} 
if (r2==r/2)pv1i=1-pv+Pi(m,n,r2)else pvil=1-pv+P2 (m,n,r2) 
tpv=min (pv ,pVv1)*2 

list (Exact.pvalue=min(pv,pv1) ,Exact .2sided.pvalue=tpv)} 


对 于 例 6.7 来 说 , 只 要 输入 下 面 语句 
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x=scan('"run2.txt'"); runstest (x>median (x)) 
束 输 出 了 单 边 和 双边 的 p 值 . 相信 读者 能 够 编 出 比 这 个 程序 更 漂亮 的 程序 . 
9. 关于 比较 两 个 独立 总 体 中 位 数 的 Wilcoxon 秩 和 检验 

就 例 6.9 数 据 而 言 , 只 要 输入 


w=read.table("gdp.txt") 
wilcox.test(w[w[,2]==1,1] ,w[w[,2]==2,1] ,alt="less'") 


器 可 以 得 到 结果 . 


6.7 习题 


(1) “假设 检验 的 目的 是 试图 使 零 假设 通过 ”的 说 法 对 吗 ? 对 于 本 章 的 例子 , 这 一 
点 能 够 做 到 吗 ? 举例 说 明 为 什么 “不 能 拒绝 零 假设 "并 不 等 于 “接受 零 假设 ” 


(2) 假定 有 两 个 班级 , 从 班级 A 抽 取 10 个 成 绩 , 它们 是 6 个 100 分 4 个 99 分 . 而 从 班 
级 B 抽 取 两 个 成 绩 , 它们 是 两 个 负 分 : 一 100 和 一 200 (数据 : grade6.txt)， 这 
个 问题 看 上 去 很 荒唐 , 就 当 这 两 个 班 的 老师 都 很 怪异 黑 了 ， 现在 分 别 对 这 
两 个 班 进行 假设 检验 (不 做 比较 均值 的 检验 ), 零 假 设 是 各 自 总 体 的 平均 分 
数 为 100 分 , 而 备 选 假 设 为 各 自 总 体 的 平均 分 数 小 于 100 分 , 即 每 个 检验 都 
是 Ho :人 /= 100 伟  : Jj < 100. 对 其 进行 单 样本 单 尾 t 检 验 . 什么 是 你 
们 的 结论 ? 如 果 你 们 觉得 结论 有 趣 , 请 同学 进行 讨论 , 说 出 你 们 对 这 个 题 
目 从 提出 到 结论 的 任何 可 能 的 看 法 . 你 可 以 选 定 这 两 个 检验 的 显著 性 水 平 
为 a 二 0.05. 


(3) 如 末 关 于 两 个 候选 人 的 民意 调查 表示 候选 人 A 有 50% 的 支持 率 , 而 候选 
人 B 有 48% 的 支持 率 , 那么 是 不 是 候选 人 A 在 整个 选民 中 的 支持 率 一 定 大 于 
候选 人 B 呢 ? 我 们 还 缺乏 什么 信息 ? 假定 这 两 个 样本 量 分 别 为 500 和 1200, 你 
们 的 结论 是 什么 ”如 果 两 个 样本 量 均 为 5000 呢 ? 


(4) 为 了 比较 两 种 鞋底 材料 ， 让 20 名 试验 者 左右 脚 穿 两 种 不 同 材 料 的 鞋 , 然后 记 
录 下 堪 右 脚 的 磨损 度 (数据 shoes.txt). 这 是 独立 样本 问题 吗 ? 如 果 不 是 , 是 
什么 问题 , 为 什么 ”利用 双 尾 检验 , 看 两 种 材料 的 耐 麻 度 是 否 一 样 . 可 选 显 
著 性 水 平 a = 0.05. 

(5) 负责 任 的 态度 是 , 在 作出 任何 结论 时 都 应 该 给 出 你 的 结论 可 能 犯错 误 的 概 
率 . 在 假设 检验 中 , 这 一 点 体现 在 哪里 ? 

(6) 重复 本 章 所 有 例子 的 计算 ， 能 够 用 多 种 方法 的 (比如 非 参数 方法 ), 尽量 用 多 
种 方法 . 

(7) 讨论 非 参 数 检 验 的 各 个 方法 在 总 体 分 布 已 知 时 可 能 存在 的 经 典 方 法 . 

(8) 能 否 试 图 就 非 参 数 检验 的 一 些 方法 , 举例 说 明 非 参数 方法 的 优点 . 
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7.1 问题 的 提出 


前 面 的 内 容 大 多 只 涉及 一 个 变量 , 是 为 进一步 引进 各 种 概念 做 铺 执 .世界 上 
任何 事物 都 是 互相 联系 的 , 绝 大 多 数 真实 数据 都 包含 有 许多 变量 的 观测 值 , 这 些 变 
量 大 都 是 以 各 种 方式 相关 联 的 . 统计 的 主要 内 容 是 研究 多 个 变量 之 间 的 关系 . 例 
如 , 顾客 对 商品 和 服务 的 反映 对 于 商家 是 至 关 重 要 的 , 但 是 仅仅 有 满意 顾客 的 比例 
是 不 够 的 , 商家 希望 了 解 什么 是 影响 顾客 观点 的 因素 , 以 及 这 些 因 素 是 如 何 起 作用 
的 . 类 似 地 , 医疗 卫生 部 门 不 能 仅仅 知道 某 流行 病 的 发 病 率 , 而 且 想 知道 什么 变量 
影响 发 病 率 , 如 何 影响 发 病 率 的 . 发 现 变 量 之 间 的 统计 关系 , 并 且 用 总 结 出 来 的 规 
律 来 帮助 人 们 进行 决策 , 这 才 是 统计 实践 的 最 终 目 的 . 

一 般 来 说 , 统计 可 以 根据 目前 所 拥有 的 信息 (数据 ) 来 建立 人 们 所 关心 的 变 
量 和 其 他 有 关 变 量 的 关系 . 这 种 关系 一 般 称 为 模型 (model)， 假如 用 Y 表 示 感 
兴趣 的 变量 , 用 XX 表示 其 他 可 能 与 Y 有 关 的 变量 (XX 也 可 能 是 若干 变量 组 成 的 向 
量 )， 则 所 需要 的 是 建立 一 个 函数 关系 Y = f( 久 ). 这 里 Y 称 为 因 变 量 或 响应 变 
量 (dependent variable, response variable), 而 六 称 为 自 变 量 , 也 称 为 解释 
变量 或 协 变 量 (independent variable, explanatory variable, covariate). 
建立 这 种 关系 的 过 程 就 叫做 回归 (regression) 或 者 分 类 (classification). 回归 
和 分 类 的 区 别 在 于 因 变 量 的 性 质 ， 当 因 变 量 为 数量 变量 时 , 叫做 回归 , 而 当 因 变量 
为 定量 变量 (也 称 名 义 变量 或 分 类 变量 ) 时 叫做 分 类 . 

思考 一 下 。 


1. 一 个 模型 的 存在 的 首要 条 件 是 可 以 很 方便 地 计算 . 因此 , 后 面 马 上 要 介绍 的 线 
性 回归 就 是 在 前 计算 机 时 代 就 已 经 发 展 出 来 的 可 以 用 手工 计算 的 统计 模型 之 
一 . 在 前 计算 机 时 代 , 人 们 必须 对 数据 做 出 许多 主观 假定 , 才能 够 进行 对 数据 
做 基于 模型 的 计算 和 判断 , 而 且 也 只 能 处 理 少 量 数据 . 


. 由 于 人 类 能 力 的 局 限 性 , 所 有 的 模型 都 是 近似 的 . 完全 准确 的 模型 是 不 存在 的 . 


: 经 典 的 统计 模型 是 可 以 用 数学 公式 描述 出 来 的 , 但 是 ， 人们 有 理由 怀疑 这 些 有 
限 的 公式 对 于 描述 复杂 的 自然 和 社会 现象 的 可 靠 程度 . 随 着 计算 机 的 发 展 ,就 
产生 了 用 计算 机 算法 来 确定 的 基于 数据 本 身 而 不 是 数学 假定 的 模型 , 模型 也 就 
变 得 越 来 越 复 杂 , 可 处 理 的 数据 量 也 越 来 越 大 . 这 些 模型 包括 机 器 学 习 或 数据 
挖掘 领域 所 使 用 的 众多 的 模型 . 


一 且 建 立 了 回归 模型 ， 除 了 对 各 种 变量 的 关系 有 了 进一步 的 定量 理解 
之 外 ,还 可 以 利用 该 模型 (函数 、 关 系 式 或 算法 ) 通 过 自 变量 对 因 变 量 做 预 
测 (prediction). 这 里 所 说 的 预测 ,是 基于 已 知 的 自 变量 的 值 , 通过 模型 对 未 
知 的 因 变量 值 进行 估计 , 它 并 不 一 定 涉及 时 间 先 后 的 概念 , 更 不 必要 有 因果 关系 . 
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下 面 先 看 后 面 还 要 讨论 的 数值 例子 . 


例 7.1 (数据 : bschool.txt) 这 是 美国 60 个 著名 商学 院 的 数据 ,包括 的 
变量 有 读 MBA 之 前 的 工资 (SalaPreMBA, 单位 : 千 美 元 )、 读 MBA 之 后 的 工 
资 (SalaPosthMBA, 单位 : 千 美 元 )、 学 费 (Tuition, 单位 : 千 美元 )、GMAT 分 
数 (GMAT, 这 是 进 商 学 院 之 前 的 考试 1) 等 四 个 变量 . 人们 想 知道 读 MBA 之 后 的 
工资 和 其 余 几 个 变量 之 间 的 关系 , 能 不 能 建立 一 个 回归 模型 . 

对 于 这 个 数据 ， 诈 先 反 出 每 两 个 变量 之 间 的 散 点 图 (图 7 1), 这 些 散 点 图 是 用 
下 面 代码 (包括 读 入 数据 ) 实 现 的 : 


w=Tead.table("bschool.txt'" ,header=TRUE) ;pairs(Vw) 


30 40 50 6 


© 
20 40 60 80 





7.1 例 7.1 的 60 个 商学 院 数据 变量 的 成 对 散 点 图 . 


从 图 7.1 可 以 看 出 ，SalaPostMBA 和 SalaPreMBA 之 间 有 一 个 增长 , 另 一 个 
也 增长 的 某 种 模式 ,， 而且 那 些 点 似乎 形成 一 条 直线 形状 . 其 他 变量 也 有 
类 似 的 模式 , 但 没有 SalaPostMBA 和 SalaPreMBA 之 间 的 关系 那么 明显 ， 这 
种 SalaPostMBA 和 SalaPreMBA 之 间 的 那 种 关系 模式 可 以 用 线性 相关 (linear 
correlation) 的 术语 描述 , 下 面 先 介绍 线性 相关 的 度量 . 


7.2 ”定量 变量 的 线性 相关 
例 7.1 中 变量 之 间 的 线性 关系 可 以 用 下 面 几 种 方法 来 度量 : 


1GMAT 为 Graduate Management Admissions Test. 
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1. Pearson 相 关系 数 (Pearson’s correlation coefficient), 它 又 称 为 相关 
系数 或 线性 相关 系数 . 它 一 般 用 字母 r 表 示 .” 它 是 由 两 个 变量 的 样 
本 Z1 … Zn 及 衣 ,…, Yn 取 值 得 到 , 计算 公式 为 

> ii(Zi 加 £)(Y; y) 

D1 (Ti — EF) VD iilYi — YD) 

这 是 一 个 描述 线性 相关 强度 的 量 , 取 值 于 -1 和 1 之 间 . 当 两 个 变量 有 很 强 的 线 

性 相关 时 , 相关 系数 接近 于 1( 正 相关 ) 或 -1( 负 相关 ), 而 当 两 个 变量 不 那么 线性 


相关 时 , 相关 系数 就 接近 0. 到 底 r 是 多 少 才 算 是 线性 相关 昵 ? 有 些 人 给 出 了 下 
面 的 粗略 的 判断 方法 !: 


在 不 同 区 闻 的 > 相对 于 不 同 程度 的 线性 相关 


7 一 





相关 系数 可 以 用 R 代 码 cor (x,y) 得 到 ， 在 数据 来 自 正 态 总 体 的 假定 下 , 有 相 
关系 数 的 检验 : Ho :TT 二 0 人 二 人 于 :rr 天 0. 要 注意 的 是 ， 这 里 仅仅 检验 是 
个” = 0? 而 不 是 是 否 线 性 相关 , 因为 即使 > 关 0 也 不 意味 着 相关 . 


2. Kendall 相 关系 数 (Kendall’” s r) 这 里 的 度量 原理 是 把 所 有 的 样 
本 所 配对 . 如 果 每 一 个 点 由 z 和 y 组 成 的 坐标 (x,y) 来 代表 ,一 对 点 
就 是 诸如 (zi,yi) 和 (zx;,y;) 那 样 的 点 对 如 果 样 本 量 为 mn， 即 数据 点 
为 (x1, V1)， (x2, Y2), EE (Zn, Yn) ) 那么 一 共有 (2) 一 n!/{2!(n 一 2)!} 这 样 多 
的 反对 . 然后 看 每 一 对 中 的 z 和 % 的 观测 值 是 否 同时 增加 (或 减少 )， 比 如 考虑 点 
对 (Zz1,Y1) 和 (x22, yo), 可 以 算出 乘积 (x。 一 T1)(Y2 一 Yi) 是 否 大 于 0， 如 果 大 于 0， 
则 说 明 z 和 y 同 时 增长 或 同时 下 降 , 称 这 两 点 协同 (concordant), 否则 就 是 不 
协同 . 如 果 样 本 中 协同 的 点 数目 多 , 两 个 变量 就 更 加 正 相关 一 些 ， 如 果 样 本 中 
不 协同 (discordant) 的 点 数目 多 , 两 个 变量 就 更 加 负 相 关 一 些 ， 如 果 既 不 正 
相关 , 也 不 负 相关 , 则 为 不 相关 . Kendall + 也 是 在 -1 和 1 之 间 的 数 , 也 是 越 接 
近 于 1 或 一 1 就 越 相 关 , 而 接近 0 就 不 相关 . 这 里 不 用 假设 总 体 的 分 布 , 也 可 以 检 
验 ( 零 假设 为 7 = 0). 因此 Kendall 相 关系 数 ( 记 为 +) 是 一 个 非 参 数 的 度量 (所 谓 
非 参数 方法 , 就 是 它 不 依赖 于 变量 背后 的 总 体 分 布 ). 


3. Spearman 秩 相 关系 数 (Spearman rank correlation coefficient 
或 Spearman”s p) 它 和 Pearson 相 关系 数 定义 有 些 类 似 , 只 不 过 在 定义 中 
把 点 的 坐标 换 成 各 自 样本 的 秩 ( 即 样本 点 大 小 的 “座次 ")，Spearman 相 关系 


“不 同 的 人 对 不 同 问题 的 线性 相关 的 理解 不 一 样 , 因此 判断 + 到 底 是 多 少 才 算 相关 , 永远 也 不 可 能 有 一 个 
完全 一 致 的 看 法 . 


110 统计 学 :从 数据 到 结论 


数 ( 记 为 p) 也 是 取 值 在 -1 和 1 之 间 , 也 有 类 似 的 解释 . 通过 它 也 可 以 进行 不 依赖 
于 总 体 分 布 的 非 参数 检验 ( 零 假设 为 p = 0). 


r=0.1978148 r= 0.5085198 r=—0.512148 r= 0.799373 
p.value = 8.338105e-06 p.value=0 p.value = 8.790658e-35 p.value=0 
© 





r=—0.9006164 r= -0.01962335 r= 0.03221531 r= -0.01309294 
p.value = 2.36865e--182 p.value = 0.6615781 p.value = 0.4723013 p.value = 0.7702509 


1.5 2.0 


00° C2 4 0:8 OE 9 
-0.5 0.0 
1.0 


-1.0 
0.0 0.5 





7.2 ”标明 相关 系数 和 检验 Ho : 7 = 0 < 有 Hi :7 关 0 的 p 值 的 8 组 数据 的 散 点 图 . 
图 7.2 为 8 组 不 同 数 据 的 散 点 图 , 图 上 标明 了 Pearson 线 性 相关 系数 及 检验 H, :7 = 
0 今 Hi :7r 关 0 时 的 p 值 . 从 图 7.2 可 以 看 出 下 面 几 点 : 
1. 第 一 行 左 数 第 一 个 图 的 两 组 数 虽然 不 线性 相关 (相关 系数 不 到 0.2), 但 检验 
的 p 值 很 小 (0.000008), 说 明 这 个 检验 显著 (可 以 拒绝 “r = 0” 的 原 假 设 , 但 并 不 
相关 ). 


2. 第 一 行 中 间 两 个 图 ( 左 数 第 二 三 个 图 ) 看 上 去 仅仅 稍微 有 些 相关 , 但 相关 系数 的 
绝对 值 都 在 0.5 以 上 (一 个 正 相关 , 一 个 负 相 关 ). 


3. 第 一 行 最 右 图 和 第 二 行 最 左 图 的 两 组 数 都 线性 相关 , 前 者 正 相 关 而 后 者 负 相 关 . 
4. 第 二 行 右 边 三 个 图 中 的 两 个 变量 显然 都 很 相关 , 但 不 是 线性 相关 , 因此 7 很 小 . 


再 来 看 例 7.1 各 个 变量 之 间 的 相关 系数 , 利用 及 语句 (包括 读 入 数据 ) 
w=read.table("bschool .txt",header=TRUE) ; cor (w) 
得 到 下 面 的 线性 相关 系数 表 
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SalaPreMBA SalaPostMBA Tuition GMAT 


SalaPreMBA 1.000 0.924 0.784 0.825 
SalaPost MBA 0.924 1.000 0.781 0.777 
Tuition 0.784 0.781 1.000 0.662 
GMAT 0.825 0.777 0.662 1.000 


看 得 出 来 ,这些 变 量 之 间 相 关系 数 都 大 于 0.6. 下 一 节 我 们 将 考虑 
以 SalaPosthMBA 为 因 变 量 的 线性 回归 模型 . 


7.3 ”经典 回归 和 分 类 
7.3.1 一 个 数量 自 变量 的 线性 回归 


例 7.1 (数据 : bschool.txt,， 继续 ) 先 考 处 一 个 因 变 量 (SalaPosthMBA, 即 
读 MBA 前 的 工资 ) 及 一 个 自 变 量 (SalaPreMBA, 拿 到 MBA 后 的 工资 ) 的 最 简单 的 
情况 . 我 们 在 图 7.1 中 看 到 这 两 个 变量 的 散 点 图 . 而 简单 线性 回归 就 是 希望 能 够 在 
图 上 找到 一 条 直线 , 使 其 能 够 在 某 种 标准 下 , 最 好 地 代表 这 个 数据 的 线性 趋势 . 当 
然 , 标准 不 同 , 结果 也 不 同 . 因此 , 首先 需要 确定 选择 这 条 直线 的 标准 . 这 里 介绍 的 
是 最 小 二 乘 回归 (least squares regression). 上 古 汉语 “二 乘 ” 是 平方 的 意思 . 最 
小 二 乘法 吏 是 寻找 一 条 直线 , 使 得 所 有 点 到 该 直线 的 竖 直 距离 , 即 按 因 变量 方向 
的 距离 , (该 距离 称 为 各 个 点 的 残 差 ,residual) 的 平方 和 最 小 . 这 样 的 直线 很 容易 
通过 计算 机 得 到 . 这 种 用 模型 (这 里 是 一 条 直线 ) 来 近似 描述 数据 的 过 程 也 叫做 拟 
合 (fit). 这 里 有 两 个 问题 , 一 个 是 为 什么 考虑 竖 直 距离 , 这 是 因为 人 们 关心 对 因 变 
量 的 描述 , 自然 希望 减少 在 因 变量 方向 的 误差 第 二 个 问题 是 为 什么 用 残 差 平方 
和 而 不 是 诺 如 残 差 绝 对 值 和 等 其 他 度量 , 这 是 因为 在 前 计算 机 时 代 , 残 差 平方 和 在 
数学 上 较 易 处 理 , 比如 其 导数 连续 等 等 . 现在 已 经 出 现 了 大 量 其 他 的 确定 回归 直 
线 的 标准 , 各 有 其 优点 . 

距 例 7.1 数 据 来 着 手 , 根据 计算 , 找到 进入 MBA 前 的 工资 (SalaPreMBA) 和 得 
到 MBA 之 后 的 工资 (SalaPostMBA) 的 回归 直线 . 通过 R 语 句 (包括 输入 数据 ) 
a=lm(SalaPostMBA“SalaPreMBA ,Ww) ; summary (a) 
plot (SalaPostMBA“SalaPreMBA,w,pch=16) ;abline(a) 
得 到 下 面 输出 及 带 有 最 小 二 乘 回归 直线 的 图 7.3. 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 

(Intercept) -11.4026 6.8394 -1.667 0.101 
SalaPreMBA 2.8290 0.1535 18.434 <2e-16 
Multiple R-squared: 0.8542, Adjusted R-squared: 0.8517 
F-statistic: 339.8 on 1 and 58 DF, p-value: < 2.2e-16 


该 输出 表明 这 条 直线 的 截 距 为 一 11.4026, 斜率 为 2.8290. 该 直线 方程 为 
y 一 一 11.40 + 2.83z 
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SalaPostMBA 
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SalaPreMBA 


7.3 例 7.1 的 SalaPreMBA 和 SalaPostMBA 的 散 点 图 及 最 小 二 乘 回归 直线 . 


这 个 直线 实际 上 是 对 所 假设 的 下 面 线性 回归 模型 的 估计 , 这 里 用 y 代 表 因 变量 (这 
里 是 SalaPostMBA), zx 代表 自 变 量 (这 里 是 SalaPreMBA). 


Y= bot+ Hzr+te. 


这 里 的 e 是 误差 项 . 该 模型 假定 , 变量 x 和 yy 有 上 面 的 线性 关系 , 但 凡是 不 能 被 该 线 
性 关系 描述 的 y 的 变化 都 由 这 个 误差 项 来 承担 . 由 于 误差 , 观测 值 不 可 能 刚好 在 这 
条 直线 上 , 如 果 这 个 模型 有 道理 的 话 ， 这 些 观测 值 都 不 会 离 这 条 直线 太 远 . 这 里 得 
到 的 截 距 和 和 斜率 是 对 Bo 和 Bi 的 估计 的 一 个 实现 , 通常 用 记号 PB 加 和 来 记 B0 和 Bi 的 
估计 . 由 于 不 同 的 样本 产生 不 同 的 估计 , 所 以 估计 量 是 个 随机 变量 , 也 有 分 布 , 也 
可 以 用 由 他 们 构造 检验 统计 量 来 检验 Bo 和 Bl 是 不 是 显著 . 拿 回 归 主 要 关心 的 描述 
两 个 变量 之 间 关 系 的 斜率 81 来 说 , 假设 检验 问题 是 
Ho:Bi=0 人 OH: AK0. 


这 是 个 t 检 验 , 如 果 显 著 ( 即 可 以 拒绝 零 假设 ), 则 认为 回归 有 意义 , 也 就 是 说 , z 的 
变化 与 y 的 变化 的 确 有 关 . 上 面 的 R 输 出 也 给 出 了 这 个 检验 的 结果 : t 检 验 统计 量 
为 18.434, 而 p 值 为 2 x 10-“, 所 以 该 检验 很 显著 . 对 于 这 个 数据 的 残 差 a$res 进 行 
了 Shapiro-Wilk 正 态 性 检验 (用 RR 语句 shapiro.test(a$res)), p 值 为 0.5226, 没 
有 证 据 拒 绝 正 态 性 的 零 假设 , 因此 不 妨 假定 变量 的 正 态 性 , 没有 正 态 性 的 假定 , 这 
个 关于 系数 81 的 检验 就 值得 怀疑 了 , 还 需要 满足 一 些 其 他 条 件 , 下 面 予以 介绍 . 
回归 中 假设 检验 所 需要 的 条 件 : 任何 回归 本 身 并 不 需要 什么 假定 的 条 件 , 用 
手 任意 画 出 一 条 你 觉得 合适 的 直线 也 可 以 说 是 回归 . 但 是 要 对 最 小 二 乘 回归 系数 
进行 t 检 验 或 后 面 要 介绍 的 关于 拟 合 好 坏 的 F 检 验 就 需要 对 模型 作出 一 些 假定 . 这 
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些 假定 是 关于 误差 项 的 : 
1. e 为 均值 为 零 的 随机 变量 ; 

2. e 的 方差 (或 标准 差 ) 对 于 所 有 x 的 值 不 变 ; 
3. 互相 独立 ; 

4. 为 正太 分布 随机 变量 


或 者 用 一 句 话 来 叙述 这 个 假定 :“e 为 独立 同 正 态 分 布 的 随机 变量 .” 后 面 要 引进 的 
各 种 回归 中 的 t 检 验 和 FF 检验 均 需要 这 些 条 件 . 在 前 三 个 条 件 成 立时 , 回归 模型 的 
误 兰 项 e 被 认为 是 随机 误差 , 也 就 是 说 , 回归 模型 是 适当 的 . 但 是 这 些 条 件 并 不 是 
自动 成 立 的 . 在 模型 不 适当 时 误差 项 是 不 会 满足 头 三 个 条 件 的 . 

除了 对 Bi 的 检验 之 外 , 还 有 一 个 说 明 自 变量 解释 因 变 量变 化 百分比 的 度量 ， 
叫做 决定 系数 (coefBcient of determination, 也 叫 测定 系数 或 可 决 系数 )， 
用 羽 "( 及 -squared) 表 示 .， 对 于 例 7.1，R? = 0.8542( 见 上 面 输出 ), 这 说 明 这 里 的 自 
变量 可 以 大 约 解释 85.4% 的 因 变 量 的 变化 ，RR 越 接近 1, 回归 就 越 成 功 . 由 于 RR 有 
随 着 变量 数目 增加 而 增 大 的 缺点 , 人们 对 其 进行 修改 , 因此 , 计算 机 输出 还 有 一 个 
修正 的 形 (adjusted R-squared). 对 于 例 7.1, 它 等 于 0.8517. 当然 , 它 和 RR2 有 类 似 
的 意义 . 此 外 , 计算 机 还 计算 了 一 个 在 零 假 设 下 有 FF 分布 的 检验 统计 量 , 它 是 用 来 
检验 回归 拟 合 好 坏 的 ( 零 假 设 是 因 变量 和 自 变量 没有 关系 ). 例 7.1 的 F 检 验 的 p 值 也 
是 2 x 10-…“. 这 个 F 检 验 的 于 ,为 “该 回归 至 少 有 一 个 系数 (斜率 ) 显 著 ”, 这 里 只 有 一 
个 日 变量 , 因此 , 前 面 关 于 斜率 81 的 检验 显著 就 等 价 于 这 里 FF 显著 , 因此 它们 的 p 值 
相等 , 但 当 回 归 有 至少 两 个 自 变 量 时 ， 这 个 检验 的 p 值 就 和 系数 的 t 检 验 的 p 值 不 
同 了 . 这 个 F 检 验 也 需要 上 面 关 于 e 的 各 个 条 件 的 满足 . 


7.3.2 ”多 个 数量 自 变 量 的 线性 回归 


和 刚才 简单 的 回归 模型 类 似 , 一 般 的 有 k 个 (定量 ) 自 变量 zx1, zz, …, zx 的 对 因 
变量 y 的 线性 回归 模型 为 ( 称 为 多 元 回归 ，multiple regression) 
y=po+ABzrit borzt: + Brrr+t 


这 里 2o, 1,.…, Bk 称 为 回归 系数 . 对 计算 机 来 说 , 对 多 个 自 变量 进行 回归 和 一 个 自 
变量 的 情况 类 似 , 只 不 过 多 选 自 变量 就 是 了 , 计算 机 也 会 自动 输出 相应 的 检验 结 
果 . 而 这 些 检验 也 只 有 在 前 面 说 的 关于 误差 项 e 的 各 种 假定 成 立时 才 有 意义 . 
当选 定 一 个 模型 , 并 且 用 数据 来 拟 合 时 , 并 不 一 定 所 有 的 变量 都 显著 , 或 者 说 
并 不 一 定 所 有 的 系数 都 有 意义 . 软件 中 一 般 都 有 一 种 一 边 回 归 , 一 边 检验 的 所 谓 
逐步 回归 (stepwise regression) 方 法 . 该 方法 或 者 从 只 有 常数 项 开始 , 逐个 地 
把 显著 的 变量 加 入 (向 前 逐步 回归 , forward), 或 者 从 包含 所 有 变量 的 模型 开始 , 逐 
步 把 不 显著 的 变量 减 去 (向 后 逐步 回归 , backward), 也 可 以 为 有 加 有 减 的 双向 逐 
步 回 归 . 这 在 各 种 软件 都 可 以 实现 . 注意 不 同方 向 逐步 回归 的 结果 也 不 一 定 相同 . 
比方 说 , 如 果 一 组 变量 和 另 一 组 变量 都 提供 了 类 似 的 信息 , 这 时 选择 哪 一 组 都 有 
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道理 . 还 需要 注意 的 是 , 逐步 回归 选择 变量 的 准则 也 是 可 以 挑选 的 , 不 同 的 准则 
会 导致 不 同 的 结果 . 这 里 R 的 默认 选项 为 向 后 逐步 回归 (backward), 而 其 默认 准则 
为 AIC-. 


例 7.1 (数据 : bschool.txt, 继续 ) 现在 除了 用 SalaPostMBA 作 为 因 变量 之 
外 , 把 剩 下 的 三 个 变量 都 作为 目 变 量 进行 回归 . 所 用 的 代码 为 


a=lm(SalLaPostMBA- . ,w) ; summary (a) 


该 代码 和 a=lm(SalaPostMBA-SalaPreMBA+Tuition+GMAT ,w) ;summary (a) 等 
同 ， 当 用 数据 中 所 有 其 余 变量 作为 自 变 量 时 , 可 以 用 “SalaPostMBA- .” 来 代替 
代码 中 的 “SalaPostMBA~SalaPreMBA+Tuition+GMAT”. 得 到 的 输出 为 


Coefficients: 

Estimate Std. Error t Value Pr(>|t|) 
(Intercept) -25.37493 32.91139 -0.771 0.4439 
SalaPreMBA 2.38124 0.32345 7.362 8.73e-10 


Tuition 0.25759 0.14088 1.828 0.0728 
GMAT 0.02820 0.06347 0.444 0.6586 
Multiple R-squared: 0.8631, Adjusted R-squared: 0.8557 


F-statistic: 117.6 on 3 and 56 DF, p-value: < 2.2e-16 
这 里 给 出 了 三 个 系数 , 按照 检验 , 有 一 个 变量 GMAT 很 不 显著 . Tuition 不 是 
很 显著 . 可 以 试 着 用 逐步 回归 并 对 残 差 做 Shapiro-Wilk 正 态 性 检验 : 


b=step(a) ; summary (b) 
shapiro.test(b$res ) 


得 到 的 回归 输出 为 
Coeftficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -11.0657 6.7006 -1.651 0.1041 
SalaPreMBA 2.4757 0.2419 10.233 1.61le-14 
Tuition 0.2604 0.1397 1.863 0.0676 
Multiple R-squared: 0.8626 ， Adjusted R-squared: 0.8578 


F-statistic: 178.9 on 2 and 57 DF, p~value: < 2.2e-16 
这 个 逐步 回归 去 掉 了 GMAT, 保留 了 Tuition. 用 wy, zl, za 代表 变量 SalaPostMBA， 
SalaPreMBA, Tuition, 结果 的 回归 方程 为 

y 三 一 11.0657 十 2.475771 十 0.26047。. 
此 外 , 残 差 的 Shapiro-Wilk 正 态 性 检验 的 pz 值 为 0.3126, 因此 似乎 没有 足够 证 据 措 
绝 正 态 性 假设 . 


! Akaike Information Criterion， 又 称 为 赤 池 信息 准则 , 它 既 要 考虑 残 差 平方 和 要 小 ,又 要 考虑 待 估计 
参数 不 能 太 多 (模型 的 简单 化 ). 
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除了 上 面 输出 之 外 , 还 可 以 用 语 旬 anova(b) 输 出 方差 分 析 (analysis of 


variance, anova) 表 : 


Analysis of Variance Table 
Response: SalaPostMBA 

Df Sum Sq Mean Sq 了 value Pr(>F) 
SalaPreMBA 1 34648 34648 354.3092 < 2e-16 
Tuition 1 340 340 3.4718 0.06758 
Residuals 57 5574 98 


方差 分 析 表 把 因 变 量 与 回归 无 关 的 总 变化 平方 和 (用 > >， (yi 一 外? 表示 ) 分 解 
为 在 个 独立 的 归 因 于 各 个 变量 及 残 差 的 平方 和 , 在 前 面 提 到 的 e 独 立 同 正 态 分布 等 
条 件 下 , 这 些 平方 和 有 xX“ 分 布 , 它们 (在 分 别 除 以 各 自 的 自由 度 之 后 ) 的 比例 有 F 分 
布 , 这 样 , 在 和 残 差 平方 和 比 之 后 , 就 有 了 若干 F 检 验 , 如 果 和 残 差 相 比 显著 , 则 说 
明 这 个 变量 所 解释 的 变化 显著 (不 能 算 为 随机 误差 ). 从 这 个 表 可 以 看 出 计算 过 程 . 
比如 (34648/1)/(5574/57) = 34648/97.789 之 354.3, 其 中 的 数字 都 出 现在 表 中 第 
一 和 第 三 行 , 这 是 F 统 计量 的 值 , 有 自由 度 (1,57), 然后 算出 p 值 约 等 于 0(2 x 10-15)， 


7.3.3” 自 变量 中 有 定性 变量 的 线性 回归 
例 7.2( 数 据 : artif2.txt) 这 个 数据 有 三 个 变量 : vy, x,w， 其 中 y 和 Zz 为 数量 
变量 , w 为 定性 变量 (有 A、B 两 个 水 平 )， 只 能 够 点 出 y 和 zx 的 散 点 图 , 图 7.4 为 这 


样 的 散 挟 图 ， 其 中 左边 的 是 对 所 有 数据 , 中 间 是 为 = 4 的 部 分 数据 , 右边 是 
为 u = B 的 部 分 数据 . 


All Data U=A u=B 





10 20 30 40 50 60 


7.4 例 7.2 的 z 和 wy 的 散 点 图 , 左 图 用 了 所 有 数据 , 中 图 只 用 ww = 4 的 部 分 数据 , 右 图 用 tw = 
B 的 部 分 数据 . 


该 图 是 用 下 面 代码 画 的 (第 一 行 是 读数 据 ): 
w=read.table("artif2.txt",header=TRUE) ;par (mfrow=c(1,3) ) 
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plot(y x,w,main="All Data") 
plot(y“x,wLlw$u=="A",] ,main="u=A'") 
plot(y “x,w[lw$u=="B",] ,main="u=B") 


从 图 7.4 的 三 个 散 点 图 可 以 看 出 , 这 里 实际 上 是 两 个 不 同 的 回归 问题 , 看 来 , 预 
期 的 回归 直线 的 截 距 和 斜率 都 依 变 量 u 取 值 的 不 同 而 不 同 . 我 们 要 选择 的 模型 为 
y=H+(0+6)r+aite, 1= 1,2, 


这 里 6 是 z 的 固有 和 斜率 , ql1 和 Qo 分 别 为 u 取 4 和 B 时 分 别 对 y 的 效应 , 它们 是 两 个 数 
值 , 利用 一 些 代数 知识 , 可 以 知道 , 单独 来 讲 , ai 或 as 及 Bi 或 6 是 不 可 估计 的 , 但 
它们 的 差 是 可 以 估计 的 , 因此 , 一 般 需 要 有 约束 条 件 . 一 些 软件 的 默认 约束 条 件 是 
设 其 中 一 个 为 零 , 比如 ai = 0, 这 样 在 i = 1 时 , 截 距 为 4 十 a = pj 十 0 = ,在 ;为 
其 他 值 时 , 截 距 为 4 十 a;. 也 有 的 约 东 条 件 是 》, ai = 0 等 等 . 无 论 设 定 什么 约束 条 
件 , 一 些 差 , 比如 aa 一 as (i 关 7 或 Bi 一 Bz (i 关 了) 是 可 以 估计 的 , 不 会 因为 约束 条 
件 不 同 而 改变 . 而 B; (i = 1,2) 为 x 分 别 与 = 4 (i = 1) 和 w = B (i = 2) 的 交互 作 
用 , 也 就 是 说 , 当 变 量 v 取 不 同 值 时 , 不 但 截 距 要 变 ( 出 现 Q;), 而 且 斜 率 也 要 变 , 增 
加 Ci. 通过 R 软 件 的 回归 语句 (这 里 模型 “y~xxw” 等 同 于 “y~x+utx:u”, 而 民 :um 代 
表 考 虑 两 个 变量 的 交互 作用 .): 

a=lm(y Xx*u,Ww) ;summary (a) 

得 到 下 面 的 输出 , 各 项 检验 在 正 态 性 假定 之 下 是 显著 的 (p 值 非常 之 小 , 为 10-16 的 
量 级 )， 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 63.43677 2.13594 29.70 <2e-16 


式 -1 .38886 0.05811 -23.90 <2e-16 
uB -56.07639 2.68658 -20.87 <2e-16 
X1:UB 2.71269 0.07588 35.75 <2e-16 
Multiple R-squared: 0.9692, Adjusted R-squared: 0.9675 


F-statistic: 586.8 on 3 and 56 DF, p~value: < 2.2e-16 


在 R 的 这 个 输出 中 , 没有 显示 的 uA( 即 ww = 4 的 效应 a1) 和 x:uA( 即 Bi) 被 软件 设 
为 0, 因而 不 显示 . 对 照 前 面 的 模型 , 这 个 输出 意味 着 参数 的 估计 为 (在 原来 参数 符 
号 上 面 加 “帽子 ”, 注意 有 些 “ 估 计 ” 仅 有 相对 意义 ) 

P=63.44, f= -1.39，6l =0, 6 = -56.10， 启 =0 P=2.71 
这 产生 了 分 别 相 应 于 w = 4 (i = 1) 和 w = B (i = 2) 的 两 条 直线 

y = 63.44+ (~1.39 +0)z+0= 63.44— 1.39z (i= 1), 
y= 63.44+ (~—1.39+2.71)z — 56.10=7.34+1.32x (i=2). 


图 7.5 显 示 了 在 图 7.4 左 面 散 点 图 上 的 这 两 条 回归 直线 , 是 用 下 面 代码 画 的 : 
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plot(y x,w);abline(a$coe[1] ,a$coe[2]) 
abline(a$coe [1]j+a$coe [3] ,a$coe [2] +a$coe [4]) 


—20 


30 40 50 60 


7.5 例 7.2 的 z 和 Y 的 散 点 图 以 及 两 条 回归 直线 . 


预测 , 训练 集 , 测试 集 和 交叉 验证 . 


回归 的 一 个 重要 目的 是 预测 ， 即 给 了 一 个 新 的 数据 ,再 套用 回归 拟 
合 出 来 的 模型 算出 预测 的 因 变 量 的 值 . 在 前 计算 机 时 代 , 要 把 数据 手工 
代入 数据 ;进行 计算 . 现在 ,这 一 切 都 很 简单 ， 下 面 就 例 7.2 的 数据 予以 说 
明 . 假定 原先 的 回归 结果 存在 “a” 中 (回顾 前 面 的 代码 a=1lm(y~x*u,w))， 用 代 
但 new=data.frame(u=c("A' ,"B" ,"B") ,x=c(47,6,45)) 创 造 一 个 只 有 td 和 zz 的 
具有 3 个 观测 值 的 名 为 “new” 的 数据 (注意 这 里 变量 的 名 字 z 和 久 要 和 原先 数据 的 一 


致 , 而 次 序 无 关 ): 


> new 
u X 
1 A 47 
2B 6 
3 B 45 


只 要 输入 代码 predict (a,new), 就 可 得 到 三 个 预测 的 y 值 : 


> predict(a,new) 
1 2 .3 
-1.83985 15.30332 66 .93237 
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一 般 回 归 输 出 中 的 拟 合 值 ( 可 以 用 a$fit 来 查看 ) 就 是 用 模型 来 拟 合 原来 得 到 
该 模型 的 数据 的 结果 ( 即 predict (a,w))， 统计 模型 中 的 所 谓 “ 拟 合 " 好 坏 , 就 是 
看 该 模型 和 用 来 估计 该 模型 的 数据 (这 种 数据 叫做 训练 数据 集 ,training set， 
简称 训练 集 ) 的 适合 程度 . 比如 决定 系数 及 就 是 衡量 拟 合 好 坏 的 一 个 度量 ， 模 
型 的 建立 不 仅仅 是 为 了 一 个 数据 , 而 必须 能 够 解释 更 广泛 的 数据 ， 所 谓 过 拟 
合 (overfitting) 就 是 模型 和 训练 集 的 拟 合 很 好 , 但 是 对 其 他 数据 集 不 合适 . 为 了 
客观 地 评价 模型 的 好 坏 , 人 们 往往 把 一 部 分 数据 作为 训练 集 来 建立 模型 , 而 另 一 
部 分 数据 作为 测试 数据 集 ，(testing set, 简称 测试 集 ) 来 检验 模型 的 误差 . 这 种 
方法 叫做 交叉 验证 (cross validation). 有 时 需要 进行 k 折 交叉 验证 (k-fold cross 
validation), 即 把 数据 分 成 k 份 , 每 次 拿 E - 1 份 作为 训练 集 , 用 剩 下 的 一 份 作为 测 
试 集 , 重复 次, 得 到 k 个 误差 作出 平均 , 以 避免 仅 用 一 个 测试 集 可 能 出 现 的 偏差 ， 
显然 , 交叉 验证 的 方法 适用 于 各 种 模型 之 间 的 比较 ， 
思考 一 下 : 


1. 例 ?.2 如 果 没 有 给 出 变量 u, 就 很 麻烦 了 , 这 是 因为 该 数据 根本 不 能 用 一 条 回归 
直线 描述 . 请 讨论 该 例 . 


2. 在 有 一 个 因 变 量 及 只 有 一 个 k 个 水 平 的 定性 自 变量 的 情况 , 得 到 的 是 有 个 截 
距 (y 等 于 k 个 常数 ). 如果 有 若干 定量 自 变 量 和 一 个 上 个 水 平 的 定性 自 变量 , 在 
没有 交互 作用 情况 下 ,就 会 产生 F 条 平行 回归 直线 . 如 果 有 若干 定量 自 变量 和 
两 个 分 别 有 大 和 4 个 水 平 的 定性 自 变量 , 在 没有 交互 作用 时 , 就 产生 有 x gq 条 平行 
回归 直线 . 请 感 兴趣 的 读者 考虑 有 交互 作用 的 情况 . 

3. 例 7.2 实 际 上 体现 了 不 同 模型 混合 在 一 起 的 情况 .比如 , 一些 变量 对 于 不 同性 
质 的 地 区 应 该 服从 不 同 的 规律 , 即 应 该 用 不 同 的 模型 来 描述 , 这 时 , 表示 地 区 
的 变量 就 起 了 例 7.2 中 的 变量 4 的 作用 . 


4. 如 果 在 平面 上 有 7m 个 点 ， 我 们 可 以 按 腿 横 坐 标 自 小 到 大 的 次 序 用 nn 一 1 个 折线 把 
它们 连接 起 来 , 这 时 , 该 折线 就 是 我 们 的 模型 ( 拟 合 曲线 ), 拟 合 的 残 差 平 方 和 
为 0, 而 及 及 调整 的 局 均 为 1, 这 是 完美 的 拟 合 , 但 你 会 这 样 做 吗 ? 


5. 决定 系数 R? 的 确 描述 拟 合 好 坏 , 但 仅 此 而 已 








7.3.4 Logistic 回归 


前 面 回归 的 因 变量 为 定量 变量 . 但 是 如 果 因 变量 为 取 两 个 值 的 定性 变量 , 前 
面 介绍 的 回归 模型 就 无 法 解决 了 ， 这 实际 上 是 一 个 分 类 问题 . 在 这 一 节 , 通过 
例 7.3 来 介绍 另 一 种 回归 , 即 logistic 回 归 (logistic regression). 


例 7.3 消 柱 数据 (column.2C.dat). 该 数据 的 自 变量 (V1, ..., V6) 为 6 个 生 
物力 学 特征 , 全 部 都 是 关于 这 些 特征 的 数量 变量 ， 这 个 数据 来 源 于 Frank and 
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Asuncion (2010) *. 我 们 的 研究 目的 之 一 是 根据 这 些 特征 把 患者 划分 两 类 : 正 
常 (100 人 , 代码 为 NO 一 normal), 不 正常 (210 人 , 代码 为 AB 一 abnormal). 在 这 个 
数据 中 变量 V6 的 第 116 个 观测 值 是 明显 的 异常 值 , 它 会 影响 拟 合 运 算 , 因此 , 在 下 
面 的 分 析 中 , 把 column.2C.dat 的 第 116 个 观测 和 值 用 V6 对 其 他 变量 回归 的 方法 插 
补 . 代码 如 下 : 


w2=read.table('"column.2C.dat'") 
ch=lm(V6™ .,w2[-116,]) 
w2[116,6]=predict (ch,w2[116,-6])#50.79539 


这 就 将 原来 的 418.54 换 成 了 50.79539. 

对 于 一 个 有 两 个 结果 的 随机 试验 , 最 简单 的 概率 模型 就 是 Bernoulli 试 验 
及 Bernoulli 分 布 , 那里 假定 成 功 的 概率 为 p, 失败 的 概率 为 1 一 p. 二 项 分 布 就 是 由 
多 次 Bernoulli 试 验 导 出 的 . 在 实际 生活 中 , 有 各 种 不 同 的 其 他 因素 干扰 试验 结果 ， 
这 样 成 功 和 失败 的 概率 就 不 是 固定 的 , 而 是 其 他 变量 的 一 个 函数 . 假定 自 变 量 向 
量 为 和 那么 一 个 简单 的 函数 为 


n( P ) = xp 
1—p 


式 中 ，[ 为 待 估计 系数 向 量 .， 这 和 简单 回归 函数 y = X76 不 同 , 方程 左边 
的 In(p/(1 一 p)) 不 是 可 观测 的 变量 , 而 是 假定 的 背景 分 布 (Bernoulli 分 布 ) 的 一 
个 参数 , 因此 不 能 用 简单 回归 的 方法 来 解 . 这 个 回归 模型 因为 其 左边 函数 被 称 
为 logit 函 数 而 叫做 logistic 回 归 模 型 , 为 广义 线性 模型 (generalized linear model, 
gm) 的 一 个 特例 . 广义 线性 模型 是 关于 指数 族 的 一 组 线性 模型 , 包括 前 几 节 介 
绍 的 简单 正 态 线 性 模型 、probit 回 归 模 型 、Poisson 对 数 线 性 模型 等 成 员 . 在 R 中 
可 用 函数 glm() 来 处 理 ， 和 1logistic 回 归 类 似 , 结果 也 往往 类 似 的 一 个 回归 模型 
为 probit 回 归 , 其 模型 也 是 基于 成 功 概率 为 p 的 Bernoulli 试 验 , 其 形式 为 
D 一 @(X DO) 或 者 下 1(p) = X78h， 


式 中 , 2 为 Bernoulli 试 验 的 成 功 概率 , 下 为 标准 正 态 累 积分 布 函数 ， 显 然 , logis- 
tic 和 probit 回 归 都 是 试图 把 取 值 范围 为 整个 实数 轴 的 X76 和 取 值 为 [0,1 区 间 
的 p 联 系 起 来 : 在 logistic 模 型 左边 的 In(p/(1 一 p)) 取 值 范围 和 右边 X76 一样 , 都 是 
整个 实数 轴 , 而 probit 模 型 左边 的 p 和 右边 的 (X76B) 都 是 取 值 于 [0, 1] 区 间 的 . 

下 面 的 代码 用 logistic 回 归来 拟 合 column.2C -dat 数据 (不 包括 读 入 数据 ): 


#Logistic 回 归 在 glm 中 属于 binomial 族 ,默认 连接 函数 (1ink) 为 logit 函 数 : 
a=glm(V7”.,w2,family="binomial'") 
b=step(a) “# 做 逐步 问 归 筛选 变量 
summary(b) # 和 输出 回归 系数 
# 由 于 拟 合 结果 是 给 每 个 观测 值 一 个 概率 值 ， 下 面 以 0.5 作 为 分 类 界限 : 
“数据 可 从 网 站 http://archive.ics.uci.edu/ml/datasets/Vertebral+Column 下 载 . 来 自 Frank, A. & 


Asuncion, A. (2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: 
University of California, School of Information and Computer Science. 
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z=(predict(b,w2,type="response')>0.5) 

u=rep("NO",310) ;u[!z]="AB" # 把 预测 结果 转换 成 原先 的 值 (AB 或 NO) 
(zz=table (w2[,7] ,u) ) #2 乘 2 和 矩阵 ,对 角 线 外 的 数目 为 分 错 的 数目 
(sum(zz)-sum(diag(zz)))Vsun(zz)# 计 算 错 判 率 


Logistic 回 归 的 估计 系数 及 近似 正 态 z 检 验 的 结果 和 分 类 结果 展示 在 下 面 两 个 





表 中 

逐步 回归 入 选 变量 之 后 的 logistic 回 归结 果 输 出 

Estimate Std. Error zvalue Pr(>|z|) 

(Intercep -14.7432 3.2037 -4.60 4.19e-06 

V1 0.0832 0.0242 3.45 0.000571 

V2 -0.1622 0.0359 -4.52 6.10e-06 

V3 0.0273 0.0195 1.40 ”0.162357 

V5 0.1049 0.0227 4.62 3.85e-06 

V6 -0.1702 0.0234 -7.29 3.15e-13 

此 外 , 在 输出 中 AIC=190.9793. 由 上 表 可 知 训练 出 来 的 模型 为 

ln 二 - — — 14.7432 + 0.0832V1 — 0.1622V2 


十 0.0273V3 十 0.1049V5 一 0.1702V6. 


变量 V4 在 逐步 回归 中 被 淘汰 . 在 下 表 中 , 行 代 表 正 确 的 类 , 列 代表 模型 判断 的 类 ， 
对 角 线 外 为 错 判 个 数 . 误 判 率 为 0.1483871. 


AB NO 
AB 186 24 
NO 22 78 


有 一 个 需要 注意 的 是 , 由 于 拟 合 结果 是 给 每 个 观测 值 一 个 概率 值 作为 拟 合 值 ， 
我 这 里 按照 其 大 于 或 不 大 于 0.5 作 为 分 类 的 界限 , 这 种 分 法 不 一 定 科 学 , 因为 把 有 
病 说 成 没 病 的 损失 要 大 于 把 没 病 说 成 有 病 的 损失 . 至 于 用 什么 阔 值 作为 分 类 界限 ， 
必须 有 一 个 明确 的 损失 标准 . 在 实际 应 用 中 , 必须 注意 这 一 点 . 


7.3.5 ”月 变量 为 数量 变量 时 的 分 类 : 经 典 判别 分 析 


一 般 的 回归 是 指 因 变量 为 定量 变量 的 情况 , 而 logistic 回 归 主 要 处 理 因 变 量 为 
只 取 两 个 值 的 定性 变量 情况 . 如 果 作 为 因 变 量 的 定性 变量 取 多 于 两 个 值 的 时 候 可 
以 用 本 节 介 绍 的 线性 判别 分 析 (linear discriminant analysis) 来 建 模 . 判别 分 
析 根 据 目 变量 来 预测 因 变 量 的 类 型 . 判别 分 析 和 前 一 节 的 logistic 回 归 的 目的 都 是 
分 类 , 与 其 他 分 类 (classification) 的 目的 是 一 样 的 . 这 里 介绍 的 判别 分 析 开 发 得 比 
较 早 , 属于 经 典 的 多 元 分 析 统 计 的 内 容 . 它 无 论 在 名 称 上 还 是 在 思路 上 , 均 和 后 面 
要 介绍 的 算法 建 模 的 分 类 方法 有 所 不 同 . 这 里 的 判别 分 析 和 前 面 介 绍 过 的 回归 的 
思路 也 有 所 不 同 . 注意 , 这 里 的 判别 分 析 的 自 变量 只 能 是 定量 变量 . 
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判别 分 析 的 原理 并 不 复杂 , 可 以 简单 地 描述 如 下 . 如 果 作 为 属性 变量 的 因 变 
量 有 K 个 取 值 ( 即 观测 值 应 该 分 成 E 类 ), 而 自 变量 包含 p 个 变量 , 那么 每 一 个 观测 值 
束 是 p 维 空间 的 一 个 点 ， 整个 训练 集 的 各 个 点 (假定 有 n 个 点 ) 就 按照 已 知 的 类 别 
在 p 维 空间 中 形成 共有 nn 个 点 的 k 个 点 群 ， 那么, 对 于 一 个 未 知 类 别 的 点 , 如 果 离 
哪 一 群 近 , 就 可 以 分 到 哪 一 群 。 当 然 还 有 如 何 定 义 “ 远 近 ” 或 距离 等 问题 . 下 面 将 
要 用 的 RR 函数 所 基于 的 Fisher 判 别 法 就 是 为 了 使 得 每 一 点 群 内 部 的 点 尽 可 能 接近 ， 
而 使 各 群 之 间 尽量 分 开 , 利用 了 线性 代数 中 的 特征 值 和 特征 向 量 的 工具 , 把 原先 
的 p 维 空间 投影 到 能 够 把 各 群 最 能 够 分 开 的 低 维 空间 上 .这 使 得 分 类 更 加 有 道理 . 
Fisper 判 别 法 没有 像 其 他 线性 判别 方法 那样 明确 要 求 假定 数据 有 多 元 正 态 总 体 . 
由 于 局 幅 有 限 , 其 他 判别 方法 就 不 做 详细 介绍 了 . 这 里 仅仅 就 Fisher 线 性 判别 分 析 
一 种 方法 , 通过 经 典 的 这 尾 花 例 子 介绍 如 何 通过 计算 机 得 到 结果 及 对 结果 的 解释 . 


例 7.4 (数据 : iris.txt) 这 是 葛 尾 花 (iris) 的 数据 ， 该 数据 给 出 150 个 仿 尾 
化 的 等 片 长 (sepal length)、 苯 片 宽 (sepal width)、 人 花 办 长 (petal eet) 花 
为 宽 (petal widthb) 以 及 这 些 花 分 别 属于 的 种 类 (Species)， 共 五 个 变量 苯 片 
和 伦 瓣 的 长 宽 为 四 个 定量 变量 ,而 作为 因 变 量 的 种 类 为 分 类 变量 ( 取 三 个 值 : 
Setosa、Versicolour、Virginica). 这 尾 花 为 法 国 的 国花 , 其 葛 片 也 是 绚丽 多 彩 的 . 
和 向 上 的 花 办 不 同 , 花 昔 是 下 垂 的 . 这 三 种 芒 尾 花 很 像 人 们 试图 建立 模型 , 根据 
莹 片 和 花瓣 的 四 个 度量 来 把 芒 尾 花 分 类 . 这 里 三 二 种 高 尾 花 各 有 50 个 观测 值 

由 于 韵尾 人 花 数 据 已 经 在 R 软 件 里 面 ， 省 去 了 输入 数据 的 语句 运用 程序 
包 MASS- 中 的 线性 判别 分 析 的 函数 lda() 先 对 所 有 数据 建 模 : 


library (MASS) 
(a=lda(Species”., iris)) 


得 到 的 结果 中 有 两 个 线性 判别 函数 的 系数 (是 与 Fisher 降 维 方法 有 关 的 特征 向 
量 中 的 头 两 个 , 它们 把 数据 从 四 维 空间 降 到 二 维 ): 


Coefficients of linear discriminants: 
LD1 LD2 
Sepal.Length 0.8293776 0.02410215 
Sepal .Width 1.5344731 2.16452123 
Petal.Length -2.2012117 -0.93192121 
Petal.Width -2.8104603 2.83918785 


用 下 面 代码 把 这 二 维 图 点 出 来 (图 7.6) 


z=as .matrix(iris[,1:4] )%*%a$scal 

plot (z{[,1],z[,2] ,pch=c (rep(19,50) ,rep(5,50) ,rep(17,50)), 
xlab = "first linear discriminant', 

ylab = "Second linear discriminant') 


1 Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with §. Fourth Edition. 
Springer, New York. ISBN 0-387-95457-0. 
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legend("top",pch=c(19,5,17),c("setosa",'"versicolor", "virginica'")) 
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图 7.6 ”把 例 7.4 对 齐 尾 花 数 据 分 类 时 把 训练 集 四 维 空间 的 点 投影 到 二 维 空间 的 结果 . 


从 图 7.6 可 以 看 出 , setosa 营 尾 花 离 另外 两 种 很 远 ， 而 versicolor 和 virginica 意 
尾 化 则 比较 接近 , 容易 划分 错 . 

上 面 的 结果 是 把 所 有 的 数据 都 当成 训练 集 , 没有 测试 集 , 为 了 进行 验证 , 我 们 
在 每 种 葛 尾 花 中 随机 选择 一 半 (25 个 ) 作 为 训练 集 ( 下 标 用 samp 表 示 ), 另 一 半 做 测 
试 集 (下 标 用 -samp 表 示 ), 然后 用 另外 25 个 用 来 建 模 . 三 种 芒 尾 花 一 起 , 训练 集 和 
测试 集 各 有 75 个 观测 . 由 于 选择 测试 集 和 训练 集 的 过 程 是 随机 的 , 每 次 计算 的 结 
果 也 不 同 . 在 及 软件 中 , 对 于 不 同 的 随机 数 种 子 , 我 们 得 到 的 结果 也 不 尽 相同 . 下 面 
是 做 这 个 简单 验证 ( 谈 不 上 交叉 验证 ) 时 的 代码 : 
set.sSeed(1010) 
samp=c (sample(1:50,25),sample(51:100,25),sample(101:150,25)) 
a=lda(Species”., data=iris, subset=samp); 
pred=predict(a,iris[-samp,])$class 
table(iris[~samp,5] ,pred) 


得 到 测试 集 分 类 结果 ( 列 为 模型 预测 的 , 行为 真实 的 ) 表 


pred 
setosa versicolor virginica 
setosa 25 0 0 
versicolor 0 23 2 
virginica 0 1 24 


有 3 个 错 分 的 , 错 分 率 为 3/75 = 0.04. 
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7.4 现代 分 类 和 回归 : 机 器 学 习 方 法 


前 面 介 绍 的 回归 和 分 类 (判别 ) 模 型 是 可 以 写成 公式 的 . 但 是 另外 一 些 回 归 和 
分 类 的 方法 是 体现 在 算法 之 中 , 其 具体 形式 是 计算 机 程序 , 这 些 方 法 广泛 用 于 机 器 
学 习 或 数据 挖掘 之 中 . 算法 模型 适用 范围 比 经 典 的 统计 模型 更 加 广泛 . 由 于 现在 
经 典 模型 也 要 经 过 计算 机 软件 实现 , 因此 , 广义 地 说 , 算法 模型 实际 上 包含 了 经 典 
模型 , 只 不 过 由 于 算法 模型 与 经 典 模型 的 发 展 过 程 及 思维 方式 很 不 相同 , 人 们 不 那 
人 么 说 而 已 . 算法 建 模 主要 发 展 于 最 近 二 十 年 , 它 得 益 于 不 断 进步 的 计算 机 技术 . 如 
果 说 起 源 于 前 计算 机 时 代 的 经 典 统计 目 前 大 大 受 惠 于 计算 机 的 发 展 , 那么 没有 计 
算 机 , 就 不 可 能 产生 算法 建 模 . 

在 处 理 巨大 的 数据 集 上 , 在 对 付 被 称 为 维 数 诅咒 的 巨大 变量 数目 时 , 在 无 法 假 
定数 据 的 任何 分 布 背景 的 情况 下 , 在 面 对 众多 竞争 模型 方面 , 算法 建 模 较 经 典 建 模 
有 着 不 可 比拟 的 优越 性 . 在 实际 需要 拉动 下 产生 和 发 展 的 算法 建 模 有 着 广泛 的 应 
用 及 理论 前 景 . 

这 里 介绍 的 每 个 方法 都 可 做 回归 和 分 类 , 由 于 它们 的 产生 起 因 大 都 是 经 典 统 
计 基 本 上 无 能 为 力 的 分 类 问题 , 这 里 也 对 每 种 方法 先 介绍 分 类 , 再 介绍 回归 . 下面 
分 别 通 过 一 些 数据 例子 来 说 明 这 两 方面 的 方法 . 最 后 还 可 以 对 各 种 方法 通过 交叉 
验证 进行 比较 . 


例 7.5 住房 数据 (Housing) 该 数据 可 以 从 网 上 下 载 !, 它 有 14 个 变量 , 是 波 士 
顿 郊 区 506 个 区 域 (城镇 ) 的 各 种 统计 数据 , 说 明 如 下 : 














DIS 到 市 中 心 加 权 距 离 













ZN RAD 到 高 速 路 的 方便 指数 
TAX 每 $10000 的 税率 

CHAS | 是 否 接 近 Charles 河 (1 或 0 变量 ) | PTRATIO | 学 生 教 师 比 例 

NOX “| 氮 氧 化 物 浓 上 度 B 黑人 比例 指数 






每 房 平 均 尾 子 数 目 LSTAT 低 阶 层 人 的 比例 
1940 年 前 目 住 房 的 比例 MEDV 自 住 房 中 位 数 房价 


注 : ZN 为 超过 25000 平 方 英尺 居住 土地 比例 , MEDV 的 单位 为 干 美元 , B 的 计算 公 
式 为 1000( 黑 人 比例 一 0.63)*. 
其 中 除了 CHAS 为 哑 元 (1= 接 近 河 ;0= 和 否则 ) 之 外 都 是 数量 变量 . 把 该 数据 的 中 位 
数 房价 看 成 因 变 量 , 其 他 作为 自 变量 , 因此 , 这 是 一 个 回归 问题 . 既 可 以 用 经 典 方 
法 , 也 可 以 用 现代 机 器 学 习 的 回归 方法 处 理 . 我 们 将 比较 各 种 方法 在 这 个 数据 上 
的 优 劣 . 

1 数据 网 址 为 http://archive.ics.uci.edu/mi/datasets/Housing. 来 自 Frank, A. & Asuncion，A， 


(2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of 
California, School of Information and Computer Science, 
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例 7.6 皮肤 病 数据 (Dermatology1.txt，Dermatology.txt) 该 数据 可 以 
从 网 上 下 载 ， 该 数据 有 35 个 变量 ，366 个 观测 值 , 变量 用 V1，V2,...，V35 表 示 . 
其 中 前 11 个 为 临床 属性 , 而 前 10 个 都 是 取 0,1,2,3 的 整数 (0 代表 不 存在 ，1 到 3 代 
表 程 度 , 越 大 越 显 著 ), 而 V11( 家 族 病史 ) 取 0 或 1 值 ; 后 面 从 V12 到 V33 为 病理 属 
性 , 也 是 取 0,1,2,3 的 整数 (0 代表 不 存在 , 1 到 3 代表 程度 , 越 大 越 显 著 ); V34 为 年 
龄 ，V35 为 鳞 状 疾病 的 类 型 ， 这 是 个 皮肤 科 数 据 ， 目 的 是 确定 Eryhemato 鳞 
状 疾病 (Eryhemato-Squamous Disease) 的 类 型 , V35 取 值 1 2,3, 4 5，6， 分 别 
代表 六 种 疾病 ( psoriasis，seboreic dermatitis, lichen planus， pityriasis rosea, 
cronic dermatitis, pityriasis rubra pilaris). 数据 文件 Dermatology.txt 是 原始 数 
据 , 而 Dermatologyl.txt 是 补 了 年 龄 (V34) 的 8 个 缺失 值 之 后 的 (下 面 要 用 的 ) 数 据 . 
把 该 数据 的 疾病 类 型 (V35) 看 成 因 变量 , 其 他 作为 自 变 量 . 显然 , 这 是 一 个 分 类 问 
题 . 由 于 目 变 量 除 了 一 个 二 分 变量 之 外 , 都 是 数量 变量 , 因此 传统 的 线性 判别 分 析 
也 可 以 使 用 , 我 们 最 后 会 比较 各 种 方法 在 这 个 数据 上 的 优 劣 . 


例 7.7， 蘑菇 数据 (agaricus-lepiotal.txt, agaricus-lepiota.txt) 该 数据 
可 以 从 网 上 下 载 *， 该 数据 有 23 个 变量 , 8124 个 观测 值 , 变量 用 V1, V2, ..…., V23 表 
示 . 其 中 V1 为 能 否 食 用 , 水 平 “e” (edible) 代 表 可 食用 , 水 平 “p” (poisonous) 代 表 有 
毒 ; 其 余 变量 都 是 分 类 变量 , 表示 各 种 蘑菇 各 部 位 的 形状 、 颜 色 、 和 气味、 生长 特 
上 扩 、 生 长 环境 等 属性 , 全 部 用 字母 表示 其 水 平 (最 多 12 个 水 平 )， 数据 文件 agaricus- 
lepiota.txt 是 原始 数据 , 而 agaricus-lepiotal.txt 是 补 了 (V12) 的 缺失 值 之 后 的 (下 
面 要 用 的 ) 数 据 . 此 外 , 由 于 V17 只 有 一 个 水 平 , 对 建 模 不 起 作用 . 下 面 处 理 时 该 数 
据 的 V1( 能 否 食 用 ) 看 成 因 变 量 , 其 他 作为 自 变 量 . 这 是 一 个 因 变 量 只 有 两 个 水 平 
的 分 类 问题 . 由 于 自 变量 全 部 是 分 类 变量 , 经 典 的 判别 分 析 完 全 不 可 用 , 即使 是 可 
以 处 理 少数 定性 变量 的 logistic 回 归 在 这 里 也 无 能 为 力 ( 三 四 个 定性 自 变 量 就 无 法 
运行 了 ). 这 只 能 用 现代 分 类 方法 来 处 理 . 

注意 , 后 面 几 节 对 这 些 数据 的 分 类 或 者 回归 结果 是 对 训练 集 的 , 也 就 是 用 其 自 
己 建 立 的 模型 来 预测 本 身 , 对 模型 更 科学 的 判断 应 该 是 交叉 验证 . 通过 交叉 验证 
来 对 分 类 模型 预测 效果 的 评价 及 各 种 模型 的 比较 , 我 们 将 在 后 面 集 中 讨论 . 


7.4.1 决策 树 


决策 树 是 本 节 后 面 要 介绍 的 其 他 方法 的 一 个 基础 ， 决 策 树 所 能 处 理 的 问 
题 非常 广泛 , 直观 易 懂 , 容易 解释 , 这 是 传统 统计 所 不 可 比拟 的 ， 后面 要 介绍 
的 boosting 和 随机 森林 称 为 组 合 方法 . 几乎 所 有 组 合 方法 的 重要 研究 一 开始 都 是 
以 决策 树 为 基本 组 件 来 实现 的 , 它们 大 大 增进 了 模型 的 预测 精度 . 


1 数据 网 址 为 http:/ /archive.ics.uci.edu/ml/datasets/Dermatology. 来 自 Frank, A. & Asuncion, A. 
(2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of 
California, School of Information and Computer Science. 

2 数据 网 址 为 http:/ /archive.ics.uci.edu/ml/datasets/Mushroom. 来 自 Frank, A. & Asuncion, A. 
(2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA.: University of 
California, School of Information and Computer Science. 
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1. 决策 树 简 介 , 分 类 树 


决策 树 的 一 个 突出 特点 是 其 再 现 了 人 类 做 决策 的 过 程 . 下 面 用 例 7.6 皮 肤 病 数 
据 (Dermatology1.txt) 例 子 来 说 明 决 策 树 的 意义 和 原理 . 图 7.7 就 是 根据 这 个 例子 
所 建立 的 决策 树 . 


V22 >= 0.5 


1 
112 61 72 49 52 20 
1 V27 >= 0.5 
108 10010 3 
46072 49 S51 20 
3 V15 < 0.5 
0071000 2 
4 60 1 49 51 20 
V5 < 0.5 


5 
2 O0010510 
460049020 
4 
0104000 
























V7 <0.5 


2 
45909020 
V26 < 0.5 


2 
4580900 
2 
1580300 


7.7 用 例 7.6 数 据 建 立 的 判别 疾病 种 类 (类 别 代号 为 1,2,3,4,.5,6) 的 决策 树 . 










该 树 是 用 决策 树 程序 包 rpart:! 及 相配 的 画图 程序 包 rpart .plot? 的 函数 产生 
的 , 具体 语句 (包括 输入 数据 ) 如 下 : z 


w=read.table("Dermatologyl.txt",header=T) ;w{[,35]=factor (w[,35]) 
library (rpart .plot) 

(a=rpart (V35~. ,w) ) # 使 用 全 部 变量 ， 用 决策 树 拟 合 全 部 数据 并 打印 输出 
rpart.plot(a,type=l,extra=1) # 画 决策 树 图 7.7 


除了 图 中 的 决策 树 之 外 , 细节 可 以 参看 输出 的 打印 结果 : 


Terry M Therneau and Beth Atkinson. R. port by Brian Ripley. Note that maintainers are 
not available to give advice on using a package they did not author. (2012). rpart: Recursive 


Partitioning. 及 package version 3.1-53. http://CRAN.R-project.org/package=rpart. 
“Stephen Milborrow (2012). rpart.plot: Plot rpart models. An enhanced version of plot.rpart.. 


及 package version 1.3-0. http://CRAN.R-project.org/package=rpart.plot. 
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n= 366 
node), split, n, loss, yval, (yprob) 
* denotes terminal node 
1) root 366 254 1 (0.31 0.17 0.2 0.13 0.14 0.055) 
2) V22>=0.5 110 2 1 (0.98 0.0091 0 0 0.0091 0) * 
3) V22< 0.5 256 184 3 (0.016 0.23 0.28 0.19 0.2 0.078) 
6) V27>=0.5 71 03(00100 0)* 
7) V27< 0.5 185 125 2 (0.022 0.32 0.0054 0. 26 0.28 0.11) 
14) Vi5< 0.5 133 73 2 (0.03 0.45 0 0.37 0 0.15) 
28) V5< 0.5 92 33 2 (0.043 0.64 0 0.098 0 0.22) 
56) V7< 0.5 71 13 2 (0.056 0.82 0 0.13 0 0) 
112) V26< 0.5 62 42 (0.016 0.94 0 0.048 0 0) * 
113) V26>=0.59 34(0.3300 0.670 0) * 
57) V7>=0.5 21 6 (0 0.048 000 0.95) * 
29) V5>=0.5 41 1 4 (0 0.024 0 0.98 0 0) * 
15) Vi5>=0.5 52 15(000.0190 0.98 0) * 


决策 树 就 像 一 棵 从 根 长 出 来 的 树 (这 里 是 倒 长 的 , 也 有 横着 长 的 )， 最 上 面 一 
个 叫做 根 节点 (root node), 占据 那里 的 变量 为 V22( 称 为 拆 分 变量 , 后 面 会 解释 
为 什么 首先 是 考虑 V22), 在 那里 的 数据 按照 因 变 量 (V35) 的 1 到 6 种 类 别 各 有 :112， 
61, 72, 49, 52, 20 个 (全 部 数据 ), 而 且 标明 , 如 果 不 继续 , 那么 类 别 1 最 多 (因此 在 根 
点 标 出 “1)， 这 时 根据 V22 是 否 大 于 等 于 0.5 来 做 下 一 步 决 策 , 如 果 “ 是 ” (yes) 则 
走 同 左 边 ,“ 不 是 ” (no) 则 走向 右边 (一 和 部 按照 yes” 往 正 ， “no” 往 右 的 习惯 ); 当 
走 同 堪 边 时 (V22 大 于 等 于 0.5 的 ) 数 据 就 少 了 一 些 , 而 且 标 出 1 到 6 种 类 别 各 有 :108， 
1, 0, 0, 1, 0 个 了 , 这 时 , 由 于 类 别 1 最 多 , 因此 决策 为 类 别 1( 有 两 个 分 错 的 ), 决 
策 树 这 个 分 支 就 结束 了 , 而 且 这 个 节点 就 称 为 叶 节 点 或 终 节点 (leaf node or 
terminal node), 换言之 : 满足 V22 大 于 等 于 0.5 的 数据 最 终 判 断 为 类 别 1( 在 打印 
输出 中 , 终 节 点 有 “*” 号 标明 ); 从 根 节点 往 右 走 ( 当 V22 小 于 0.5), 就 进入 另 一 个 节 
所 , 那里 1 到 6 种 类 别 各 有 :4, 60, 72, 49, 51, 20 个 , 最 多 的 是 被 标明 的 类 别 3, 但 这 
种 混杂 情况 很 难 做 决策 ， 因此 这 个 节点 不 能 为 终 节 点 ， 称 为 中 间 节 点 (internal 
node). 那里 的 拆 分 变量 为 V27, 然后 根据 V27 是 否 大 于 等 于 0.5 再 进 分 又. 如 此 下 
去 , 决策 树 就 长 成 了 . 这 个 决策 树 有 7 个 终 节 点 .其 中 有 6 个 节点 都 有 些 误 分 的 类 
型 . 用 语句 table (w[ ,35] Pre9ieveasW,type™"class")) 可 以 得 到 下 面 的 表 


1 2 3 4 5 


OO OO OpPO OO 
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其 中 列 号 代表 真实 的 类 , 行 号 代表 决策 树 模型 所 划分 的 类 , 对 角 线 上 的 数目 是 正确 
划分 的 数目 , 而 对 角 线 之 外 的 为 误 分 的 . 比如 第 1 类 观测 值 被 正确 划分 为 第 1 类 的 
数目 为 108, 而 对 第 4 类 观测 值 被 错误 划分 为 第 1 类 的 数目 为 3， 很 容易 算出 误 分 率 
为 0.03278689, 在 总 共 366 个 观测 值 中 有 12 个 误 分 的 . 这 个 决策 树 仅仅 用 了 34 个 自 
变量 中 间 的 6 个 . 

决策 树 的 节点 上 的 变量 可 能 是 各 种 形式 的 (连续 、 离 散 、 有 序 、 分 类 变量 
等 等 ), 一 个 变量 也 可 以 重复 出 现在 不 同 的 节点 .一 个 节点 前 面 的 节点 称 为 父 
太太 ( 母 节点 或 父母 节点 ，parent node), 而 该 节点 为 前 面 节点 的 子 节点 ( 女 
节 扣 或 子女 节点 ，child node), 并 列 的 节点 也 叫 兄 弟 节 点 (姊妹 节点 ，sibling 
node). 

如 何 挑选 拆 分 变量 呢 ? 以 分 类 为 例 , 一 开始 的 数据 可 能 包含 有 若干 类 , 一 般 按 
照 下 面 原则 : 


”步骤 1. 如 果 数 据 已 经 只 有 一 类 了 , 或 某 一 类 占 绝 大 部 分 了 (或 者 按照 某 停止 生长 


步骤 2. 寻找 一 个 变量 使 得 依照 该 变量 的 某 个 条 件 把 数据 分 成 纯度 较 大 的 两 个 (或 
几 个 ) 数 据 子 集 . 而 用 其 他 变量 所 划分 的 子 集 不 如 该 变量 划分 得 那样 纯 也 
就 是 说 , 根据 某 种 局 部 最 优 性 来 选择 变量 . 然后 对 于 其 子 节点 回 到 步骤 1 


上 面 步 又 中 说 的 "纯度 "如 何 定义 ? 也 就 是 说 用 什么 度量 标准 来 根据 数据 在 某 节 点 
选择 变量 ? 不 同 的 软件 有 不 同 的 标准 , 但 原理 是 类 似 的 , 结果 不 会 有 多 大 差别 . 另 
一 个 问题 是 让 决策 树 不 断 地 长 下 去 直到 无 法 增长 为 止 , 还 是 适可而止 ? 这 涉及 前 
村 问题 人 们 总 是 希望 模型 既 有 效 又 简单 . 一般 统 计 软 件 都 有 关于 剪 枝 的 默认 准 
则 , 本 书 采用 的 就 是 默认 值 (未 加 改动 ). 此 外 , 变量 可 能 是 分 类 变量 , 也 可 能 是 有 序 
变量 或 者 连续 变量 . 如 果 拆 分 变量 是 分 类 变量 , 则 在 其 各 个 水 平 中 找到 最 优 的 (使 
得 数据 变 得 最 纯 ) 的 水 平 (或 水 平 组 合 ) 作 为 拆 分 原则 ; 如 果 拆 分 变量 是 数量 的 , 也 
是 寻求 一 个 值 , 使 得 大 于 或 小 于 该 值 最 能 纯化 数据 . 当然 , 我 们 的 目标 既 可 能 是 分 
类 , 也 可 能 是 回归 . 例 7.6 是 分 类 例子 , 对 于 回归 例子 , 拆 分 变量 的 选择 则 为 诸如 使 
得 残 关 平方 和 最 小 等 准则 , 而 终 节 点 的 决策 就 是 那里 余下 观测 值 中 因 变 量 的 均值 . 
下 面 册 用 次 宋 树 来 拟 合 传统 统计 无 法 处 理 的 例 7.7 的 蘑菇 数据 (agaricus- 
lepiotal.txt) 的 全 部 观测 值 . 所 用 代码 为 (包括 输入 数据 ): 
w=read.table("agaricus-lepiotal.txt" ,header=T) 
library(rpart .plot) 
(a=rpart (V1~.,w)) # 使 用 全 部 变量 ， 用 决策 树 拟 合 全 部 数据 并 打印 输出 
rpart .plot(a,type=1,extra=1) # 画 决策 树 
\z0=table(w[,1] ,predict(a,w,type='"class"))) 
z0;(E0=(sum(z0)-sum(diag(z0)))/sum(z0)) 
图 7.8 为 得 到 的 决策 树 . 


还 输出 了 打印 的 决策 树 细节 : 


-1j28 ”统计 学 ;从 数据 到 结论 


V6 = an 





V21 = b,h,kn,o,u,w,y 





7.8 ”用例 7.7 数 据 建 立 的 判别 蘑 妇 是 否 可 食 ( 类 别 代号 为 “e",“p”) 的 决策 树 . 


n= 8124 
node), split, n, loss, yval, (yprob) 
* denotes terminal node 
1) root 8124 3916 e (0.51797144 0.48202856) 
2) V6=a,l,n 4328 120 e (0.97227357 0.02772643) 
4) V21=b,h,k,n,o,u,W,y 4256 48 e (0.98872180 0.01127820) * 
5) V21i=r 72 0 P (0.00000000 1.00000000) * 
3) V6=c,f,m,p,s,y 3796 0 p (0.00000000 1.00000000) * 


分 类 结果 在 下 面 的 2 x 2 和 矩阵 中 : 


e Pp 
e 4208 0 
p 48 3868 


在 8124 个 观测 中 , 一 共有 48 个 芯 菇 从 毒 蘑菇 错 分 到 可 食 芒 菇 中 ,， 错 误 率 
为 0.005908419. 后 面 要 介绍 的 组 合 方法 将 对 此 数据 的 分 析 大 大 改进 . 


2. 决策 树 回 归 : 回归 树 
现在 用 决策 树 来 拟 合 例 7.5 的 住房 数据 (Housing) 的 全 部 观测 值 , 使 用 下 面 代 
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码 ( 包 括 读 入 数据 ): 
w=read.table("housing.txt",header=T) 
library (rpart .plot)# 同 时 自动 打开 rpart 
a=rpart (MEDV”~. ,Ww) ;a # 计 算 决 策 树 并 输出 决策 树 的 细节 
rpart .plot (a,type=1,faclen=T) # 画 出 决策 树 的 图 
得 到 图 7.9 及 下 面 关 于 树 细 节 的 输出 : 
n= 506 
node), split, n, deviance, yval 
* denotes terminal node 
1) root 506 42716.3000 22.53281 
2) RM< 6.941 430 17317.3200 19.93372 
4) LSTAT>=14.4 175 3373.2510 14.95600 
8) CRIM>=6.99237 74 1085.9050 11.97838 * 
9) CRIM< 6.99237 101 1150.5370 17.13762 * 
5) LSTAT< 14.4 255 6632.2170 23.34980 
10) DIS>=1.5511 248 3658.3930 22.93629 
20) RM< 6.543 193 1589.8140 21.65648 * 
21) RM>=6.543 55 643.1691 27 .42727 +* 
11) DIS< 1.5511 7 1429.0200 38.00000 * 
3) RM>=6.941 76 6059.4190 37.23816 
6) RM< 7.437 46 1899.6120 32.11304 
12) LSTAT>=9.65 7 432.9971 23.05714 * 
13) LSTAT< 9.65 39 789.5123 33.73846 * 
7) RM>=7.437 30 1098.8500 45.09667 * 


在 这 个 决策 树 的 每 个 节点 上 的 数目 是 该 节点 处 观测 值 的 因 变 量 房 
价 (MEDYV) 的 平均 值 (单位 二 美元 )， 从 图 7.9 可 以 看 出 , 回归 中 对 房价 最 有 影响 
的 变量 是 RM, 还 有 LSTAT, CRIM 和 DIS 也 出 现 过 . 评价 模型 预测 好 坏 的 一 个 准 
则 为 标准 化 均 方 误差 (normalized mean squares error, NMSE), 定义 为 


1 . 
>》_ (yi 一半)” >》 (yi 一 新)? 
NMSE = = = 二 


分 子 为 该 模型 拟 合 后 的 残 差 平方 和 (5 代表 对 第 i 观测 值 的 预测 ), 分 母 代表 用 最 简 
单 的 算术 平均 7 = 5?_, yi;( 实 际 上 没有 用 任何 模型 ) 来 预测 y 的 “和 残 差 平 方 和 > 
如 果 NMSE 大 于 或 等 于 1, 说 明 这 个 回归 模型 没有 任何 意义 . 任何 有 丝毫 道理 的 模 
型 都 应 该 产生 NMSE 小 于 1 的 预测 结果 . 用 下 面 代码 计算 NMSE: 


yO0=predict(a,w) 
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yes RM < 6.9 


LSTAT >= 14 RM < 7.4 





CRIM >= 了 DIS >= 1.6 LSTAT >= 9.6 
(152 “232 ( 322 
DD DO ms DD 的 司 
(232 
(22 ) C27) 


7.9 ”用 例 7.5 数 据 建立 的 以 中 位 数 房 价 为 因 变 量 的 决策 树 . 


(NMSEO=mean ( (w$MEDV-y0) “2)/mean( (whMEDV-mean (w$MEDV) ) “2)) 
得 到 NMSE= 0.1924279. 


7.4.2 ”关于 组 合算 法 


下 面 要 介绍 的 几 种 算法 为 机 器 学 习 组 合算 法 或 组 合 方法 , 其 目的 在 于 把 一 些 
较 弱 的 算法 (比如 决策 树 ) 结 合 起 来 产生 一 个 非常 精确 的 预测 规则 . 为 什么 组 合 会 
得 到 更 好 的 结果 呢 ? 下 面 举 一 个 通俗 的 例子 说 明 . - 

如 果菜 人 和 欲 竞选 当地 领导 , 假定 该 地 有 49 吧 的 人 不 支持 他 .那么 , 每 随机 问 
一 个 人 , 都 有 约 49% 的 可 能 不 选 他 (我 们 假定 该 地 选民 总 数 很 大 , 这 样 , 每 问 一 
个 人 就 近似 地 相当 于 一 个 Bernoulli 试 验 , 相应 的 概率 p = 0.49). 如 果 从 该 地 随 
机 选择 1000 人 来 投票 , 按照 简单 多 数 当选 的 原则 , 那么 他 不 被 选 上 的 概率 是 多 
少 昵 ?假定 这 次 投票 中 不 选 他 的 票数 服从 参数 为 1000 和 0.49 的 二 项 分 布 , 容易 
计算 , 这 1000 人 中 有 超过 半数 的 人 (至 少 501 人 ) 不 选 他 的 概率 约 为 0.2532( 可 用 代 
码 1-pbinom(500,1000, .49) 得 到 ), 远 远 小 于 某 一 个 人 不 选举 他 的 概率 0.49， 这 
类 决策 例子 直观 地 表现 在 图 7.10 中 . 该 图 给 出 了 在 个 体 数目 为 n 时 (个 体 是 随机 选 
出 的 , 在 大 总 体 中 可 近似 地 看 成 放 回 抽样 ), 个 体 做 某 项 决策 的 概率 p( 横 坐标 ) 和 个 
体 数 目 为 n 的 群体 按照 少数 服从 多 数 的 投票 原则 做 出 该 项 决策 的 概率 (暂时 用 p, 表 
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不 , 维 坐 标 ) 之 间 关 系 的 点 图 (图 中 的 S 型 曲线 ). 图 中 对 角 线 用 作对 照 , 而 竖 直 与 
水 平 的 两 条 点 状 虚线 分 别 标明 了 这 两 个 概率 均 为 0.5 时 的 位 置 . 可 以 看 出 , 在 p 小 
于 50% 时 , 样本 量 越 大 , 群体 决策 概率 p, 相 对 于 p 越 小 , 样本 量 很 大 时 po 接近 于 0; 
而 在 p 大 于 50% 时 , 样本 量 越 大 , p, 相 对 于 p 越 大 , 样本 量 很 大 时 p, 接 近 于 1. 
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7.10 ”假定 个 体 决 策 为 Bernoulli 试 验 , 个 体 决策 概率 ( 横 坐 标 ) 与 少数 服从 多 数 原 则 下 个 体 数 
目 为 n(n 分 别 为 5, 11, 51, 101, 1001,9999) 的 群体 投票 决策 概率 ( 纵 坐 标 ) 的 点 图 (S 型 曲线 )， 


现在 考虑 分 类 问题 (回归 问题 类 似 ), 对 于 组 合 方法 来 说 , 这 时 的 基本 统计 模型 
也 称 为 分 类 器 (classifier)， 前 面 介绍 过 的 分 类 树 和 判别 分 析 都 是 分 类 器 . 假定 
有 许多 竞争 模型 或 方法 来 进行 分 类 , 如 果 每 个 方法 比 随 机 挑选 稍微 强 一 点 , 也 就 
是 说 比 用 扔 硬币 要 强 , 那么 每 个 基本 分 类 器 出 错误 概率 应 该 小 于 50%， 这 时 , 类 
似 于 刚才 所 说 的 选举 例子 , 用 一 个 分 类 器 的 结果 , 不 如 用 许多 分 类 器 “投票 "的 结 
下 要 可 靠 . 这 种 利用 多 个 模型 的 方法 , 对 于 回归 也 适用 , 只 不 过 不 用 投票 , 而 是 对 
个 同 结果 进行 茶 种 平均 . 这 种 组 合 多 个 分 类 器 或 回归 模型 ( 称 为 基本 模型 ) 来 得 到 
结果 的 方法 就 称 为 组 合 方法 (ensemble method, ensemble learning, meta 
algorithm). 当然 , 图 7.9 所 描述 的 情况 只 能 是 对 组 合 方法 出 错 率 的 一 个 简单 化 类 
比 . 满足 Bernoulli 试 验 性 质 的 分 类 器 可 能 并 不 存在 , 但 多 个 模型 的 某 些 形式 的 组 
合 确实 能 够 大 大 减少 出 错 率 . 下 面 我 们 介绍 两 种 把 决策 树 作 为 基本 学 习 器 (基本 模 
型 ) 的 组 合 方法 : boosting 和 随机 森林 . 
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7.4.3 Boosting 
1. Boosting 简 介 , adaboost 分 类 


这 里 介绍 的 adaboost 是 boosting 的 一 种 , 是 一 种 组 合 方法 , 这 里 用 分 类 树 作 
为 基本 学 习 器 . Adaboost (adaptive boosting 的 简写 ) 可 以 译 为 自 适应 助 推 法 , 但 
我 们 更 愿意 用 简明 的 英文 缩写 adaboost，Adaboost 是 一 种 迭代 式 的 组 合算 法 , 目 
的 是 分 类 . 所 用 的 基础 分 类 器 (这 里 用 决策 树 ) 一 开始 可 能 较 弱 ( 即 出 错 率 较 高 ), 然 
后 , 随 着 迭代 的 进行 , 不 断 地 通过 自助 法 (bootstrap) 加 权 再 抽样 , 根据 产生 新 样 
本 来 改进 分 类 器 , 每 一 次 迭代 时 都 针对 前 一 个 分 类 器 对 某 些 观 测 值 的 误 分 缺陷 加 
以 修正 , 通常 的 做 法 是 在 ( 放 回 ) 抽 取样 本 时 对 那些 误 分 的 观测 值 增加 权重 (相当 于 
对 正确 分 类 的 减少 权重 ), 这 样 在 新 的 样本 中 就 可 能 有 更 多 的 前 一 次 分 错 的 观测 
值 , 再 形成 一 个 新 的 分 类 器 进入 下 一 轮 迭 代 , 作为 结果 , 这 些 观测 值 在 训练 模型 
时 就 有 了 更 大 的 代表 性 , 增加 了 对 这 类 观测 值 的 正确 划分 的 可 能 性 ， 而 且 在 每 轮 
和 迭代 时 都 对 这 一 轮 产生 的 分 类 器 给 出 错误 率 , 最 终结 果 由 各 个 阶段 的 分 类 器 的 按 
照 错误 率 加 权 ( 权 重 目 的 是 惩罚 错误 率 大 的 分 类 器 ) 投 票 产 生 .， 这 就 是 *“ 自 适应 ” 
Adaboost 的 缺点 是 对 奇异 点 或 离 群 点 可 能 比较 敏感 , 但 其 优点 是 对 过 拟 合 不 那么 
敏感 . 这 里 用 的 程序 包 是 adabag !, 该 程序 包 包 含 了 adaboost 的 boosting() (也 
网 是 老 版 本 的 adaboost .M1() 函 数 ,“adaboost.M1” 是 方法 的 名 称 ) 函 数 . 

下 面 对 例 7.6 皮 肤 病 数据 (Dermatology1l.txt) 的 全 部 变量 和 全 部 观测 值 
用 adaboost 做 分 类 . 用 下 面 的 代码 (包括 输入 数据 ): 


w=read.table("Dermatologyi.txt'",header=T) ;w[,35]=factor (w[,35]) 
library (adabag) 
set .seed(4410) 
a=boosting(V35~.,w) # 旧 版 本 为 adaboost .M1 (V35”™. ,w) 
z0=table(w[,35] ,predict(a,w)$class) 
z0; (EO=(sum(2z0)-sum(diag(z0)))/sum(z0)) 
barplot (a$importance, cex.name=.7) # 画 出 变量 重要 性 图 

这 给 出 了 下 面 输出 展示 的 分 类 结果 ， 行 是 真实 类 , 列 是 预测 类 ， 对 角 线 外 全 部 
是 0, 因此 得 到 误 判 率 为 零 , 没有 一 个 观测 值 被 错 分 . 

1 2 3 4 5 


0 0 0 0 0 20 


1Alfaro-Cortes, Esteban; Gamez-Martinez, Matias, Garcia-Rubio and Noelia (2011). adabag: 
Applies AdaBoost.M1， AdaBoost-SAMME and Bagging. R package version 3.0, http://CRAN.R- 
project.org/package=~adabag. 
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7.11 用 adaboost 拟 合 例 7.6 皮 肤 病 数据 时 的 变量 重要 性 图 . 


从 图 7.11 可 以 看 出 , 对 于 预测 最 重要 的 变量 为 V15, 它 代 表 乳 突 真 皮 训 性 纤维 
化 (fibrosis of the papillary dermis). 这 说 明 该 变量 对 于 识别 疾病 种 类 最 重要 . 

下 面 对 例 7.7 蘑 菇 数据 (agaricus-lepiotal.txt) 的 全 部 变量 和 全 部 观测 值 
用 adaboost 做 分 类 . 用 下 面 的 代码 (包括 输入 数据 ): 


VW=Tead.table("agaricus-Jepiotal .txt" ,header=T) 
library (adabag) 
set .seed(4410) 
a=boosting(Vi”~.,w) 
z0=table(w[,1] ,predict(a,w)$class) 
z0; (EO0=(sum(z0)-sum(diag(z0)))/sum(z0)) 
barplot (a$importance) # 画 出 变量 重要 性 图 
这 给 出 了 下 面 输出 展示 的 分 类 结果 , 行 是 真实 类 , 列 是 预测 类 , 对 角 线 外 全 部 
是 0, 因此 得 到 误 判 率 为 零 , 没有 一 个 蘑 茹 被 错 分 . 
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图 7.12 为 变量 重要 性 图 . 


从 图 7.12 可 以 看 出 , 对 于 预测 最 重要 的 变量 为 V6,， 它 代表 菌 裤 依附 (gil- 
attachment) 的 性 状 . 这 说 明 该 变量 对 于 识别 蘑菇 是 人 否 可 食 非 稼 重要 ， 
2. ”Boosting 回 归 


下 面 用 boosting 对 例 7.5 住 房 数据 (Housing) 的 全 部 观测 值 和 全 部 变量 做 回归 ， 
这 里 用 的 程序 包 是 mboost1, 代码 为 (包括 数据 输入 及 求 NMSE): 


1T. Hothorn, P. Buehlmann, T. Kneib, M. Schmid, and B. Hofner (2012). mboost: Model-Based 
Boosting, R. package version 2.1-3, http://CRAN.R-project.org/package~=mboost. 
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7.12 ”用 adaboost 拟 合 例 7.7 蘑 菇 数据 时 的 变量 重要 性 图 . 


w=read.table("housing.txt",header=T) 

library (mboost) 

set .seed(44) 

b=blackboost (MEDV ~ .,data =w) 

yO=predict(b ,w) 

(NMSEO=mean((w$MEDV-y0) “2)/mean((w$MEDV-mean (w$MEDV) ) “2)) 


得 到 NMSE= 0.0758601. 


7.4.4 ”随机 和 森林 
1. 随机 森林 简介 , 随机 森林 分 类 


随机 森林 (random forests) 和 使 用 决策 树 作 为 基本 模型 的 adaboost 有 
些 类 似 点 , 但 在 每 次 自 助 法 (boostrap) 时 都 是 等 权 抽 样 ， 这 比 adaboost 简 单 ， 
和 adaboost 不 同 的 是 , 在 生成 树 的 时 候 ， 每 个 节点 的 变量 都 仅仅 在 随机 选 出 的 
少数 变量 中 产生 . 因此 , 不 但 每 棵 树 所 依据 的 数据 是 随机 的 ,就 连 每 个 节点 的 产生 
都 有 很 大 的 随机 性 . 随机 森林 让 每 个 树 尽量 增长 ， 而 且 不 进行 修剪 . 随机 森林 所 
生成 的 树 的 数量 大 大 多 于 adaboost, 在 R 中 的 默认 值 为 500 棵 树 , 而 adaboost 的 默 
认 值 为 50 棵 树 . 随机 森林 对 于 大 的 数据 库 很 有 效率 . 它 不 惧怕 很 大 的 维 数 , 即使 是 
数 干 变量 , 它 也 不 必 删 除 变量 , 只 要 计算 机 能 够 承担 , 变量 多 多 益 善 .随机 森林 不 
会 过 拟 合 . 它 还 给 出 分 类 中 各 个 变量 的 重要 性 , 在 一 个 关于 淋巴 瘤 的 基因 芯片 数 
据 中 , 变量 个 数 可 以 达到 4682 个 , 而 样本 量 仅 有 81 个 , 但 随机 森林 可 以 很 好 地 找到 
重要 的 基因 ( 见 Breimaan 2001 ). 这 种 数据 在 经 典 统计 中 根本 无 法 处 理 , 因为 经 
典 回 归 分 析 只 能 够 处 理 自 变量 个 数 大 大 少 于 观测 值 数目 的 问题 . 正如 Diaconis & 


lBreiman, L. (2001) Statistical modeling: the two cultures, Statistical Science, Vol. 16, No. 3. 
199-231. 
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Efron(1983) 曾经 说 过 ,“ 统 计 经 验 表明 , 基于 19 个 变量 和 仅仅 155 个 数据 点 来 拟 合 
模型 是 不 明智 的 .”: 看 来 这 个 说 法 不 适用 于 算法 建 模 . 

下 面 对 例 7.6 皮 肤 病 数据 (Dermatology1.txt) 的 全 部 变量 及 全 部 观测 值 用 程序 
包 zrandomForest“ 中 的 随机 森林 函数 做 分 类 . 用 下 面 的 代码 (包括 输入 数据 ): 


WwW=ITead,table("DermatolLogyl.txt" ,header=T) ; w[,35]=factor(w[,35]) 


library (randomForest) 

set.seed(101010) 

(a=randomForest (V35 ~ ., data=w,importance=TRUE,proximity=TRUE)) 
(z0O=table(w[,35] ,predict (a,w))) 

# 男 出 变量 重要 性 的 8 个 图 


layout (matrix(c(1,2,3,4,5,6,7,7,7,8,8,8) ,nr=2,byrow=T) ) 
for(i in 1:8)barplot(t(importance(a))[i,] ,cex.names = 0.5) 

这 给 出 了 下 面 输出 展示 的 分 类 结果 , 行 是 真实 类 , 列 是 预测 类 , 没有 错 分 的 ， 
因此 得 到 误 判 率 为 零 . 


1 2 3 4 5 6 
1 112 0 0 0 0 0 
2 0 61 0 0 0 0 
3 0 0 72 0 0 0 
4 0 0 0 49 0 0 
5 0 0 0 0 52 0 
6 0 0 0 0 0 20 


图 7.13 为 变量 重要 性 图 . 


图 7.13 一 个 有 8 个 图 , 上面 6 个 图 分 别 为 对 因 变 量 疾病 类 型 (V35) 的 6 个 类 中 的 
每 一 类 判断 时 的 各 个 变量 的 重要 性 (由 于 图 较 小 , 变量 名 字 没 有 完全 显示 , 有 兴趣 
的 读者 可 自行 单独 做 图 或 者 打印 数字 结果 .), 而 下 面 的 两 个 图 为 各 个 变量 对 整个 
模型 的 重要 性 图 , 左 图 是 变量 对 精确 度 的 贡献 , 右 图 是 变量 作为 拆 分 变量 时 使 数 
据 ( 在 Gini 指 数 的 意义 上 ) 变 纯 的 贡献 . 

此 外 , 随机 森林 还 输出 了 一 行 : 00B estimate of error rate: 1.91%, 
意思 是 OOB 误 差 估计 为 1.91%， 这 里 QOB 是 英文 “out of bag” 的 缩写 ， 由 于 每 
次 自助 法 抽样 都 有 一 部 分 观测 值 没有 抽 到 , 被 称 为 DOB 数 据 集 ， 显 然 , 这 些 观 
测 值 就 成 为 天 然 的 交叉 验证 测试 集 ， 如果 按照 默认 值 , 随机 森林 要 建立 500 棵 树 ， 
这 样 就 有 500 个 OOB 和 集 作为 测试 集 , 而 交叉 验证 的 综合 结果 就 是 OOB 误 差 估计 . 
这 样 虽然 是 把 整个 数据 作为 训练 集 来 拟 合 , 但 还 是 进行 了 大 量 的 交叉 验证 , 这 


i!Diaconis, P. and Efron, B. (1983). Occam’'s two razors: the sharp and the blunt. In Proceedings 
of the Fourth International Conference on Knowledge Discovery and Data Mining (R Agrawai and 
P. Stolorz, eds.) 37-43, AAAI Press, Menlo Park, CA. 

2A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R. News 2(3), 
18-22. 
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7.13 ”用 随机 森林 拟 合 例 7.6 皮 肤 病 数据 时 的 变量 重要 性 图 . 


里 DOB 交 叉 验 证 的 误差 为 0.0191. 


下 面 对 例 7.7 蘑 妇 数 据 (agaricus-lepiotal.txt) 的 全 部 变量 和 全 部 观测 值 用 随 
机 森林 做 分 类 , 用 下 面 的 代码 (包括 输入 数据 ): 


w=read.table("agaricus-lepiotai .txt",header=T) 

library (randomForest) 

set.seed(101010) 

a=randomForest(Vi ~ ., data=w, importance=TRUE, proximity=TRUE) 
zO=table(wl,1] ,predict (a,w)) 

z0; (EO=(sum(z0)-sum(diag(z0)))/sum(z0)) #0 

# 画 出 变量 重要 性 的 4 个 图 

par (mfrow=c(2,2)) 

for(i in 1:4)barplot(t(importance(a)) [i,] ,cex.names = 0.5) 


这 给 出 了 下 面 输出 展示 的 分 类 结果 , 行 是 真实 类 , 列 是 预测 类 , 没有 错 分 的 ， 
因此 得 到 误 判 率 为 零 ， 和 adaboost 一 样 . 
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图 7.14 为 变量 重要 性 图 . 


图 7.14 一 个 有 4 个 图 , 上 面 2 个 图 分 别 为 对 因 变 量 V1 类 型 (可 食 还 是 有 毒 ) 的 2 个 
类 中 的 每 一 类 判断 时 的 各 个 变量 的 重要 性 ,而 下 面 的 两 个 图 为 各 个 变量 对 整个 
模型 的 重要 性 图 , 左 图 是 变量 对 精确 度 的 贡献 , 右 图 是 变量 作为 拆 分 变量 时 使 数 
据 ( 在 Gini 指 数 的 意义 上 ) 变 纯 的 贡献 . 这 里 OOB 交 叉 验证 的 误差 为 0. 
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7.14 用 随机 森林 拟 合 例 7.7 蘑 区 数据 时 的 变量 重要 性 图 . 


2. 随机 森林 回归 


下 面 用 随机 森林 对 例 7.5 住 房 数 据 (Housing) 的 全 部 变量 和 全 部 观测 值 做 回归 ， 
代码 为 (包括 数据 输入 及 求 NMSE): 


w=read.table("housing.txt",header=T) 

w$CHAS=factor (w$CHAS) 

set .seed(1011) 

A=randomForest (MEDV” . ,data=w, importance=TRUE ,proximity=TRUE) 
yO0=predict (A,w) 
(NMSE=mean((w$MEDV-y0) “2) /mean( (w$MEDV-mean (w$MEDV) ) “2)) 


得 到 NMSE= 0.02310986. 


7.4.5 支持 向 量 机 


支持 问 量 机 (support vector machine， SVM) 是 一 种 分 类 方法 , 也 可 以 
做 回归 ,和 boosting 及 随机 森林 不 同 , SVM 不 是 基于 决策 树 的 组 合 方法 . 它 虽然 
是 基于 数学 模型 的 , 但 充分 结合 了 计算 机 的 算法 . 由 SVM 发 展 出 来 的 回 妇 方法 
也 称 为 支持 向 量 回归 (Support Vector Regression, SVR). 对 于 分 类 问题 
SVM 是 用 若干 超 平面 来 分 割 空 间 以 把 不 同类 别 的 点 分 开 , 在 的 确 可 以 分 开 ( 称 为 
严格 线性 可 分 问题 ) 的 情况 下 , 超 平面 的 选择 是 与 其 所 分 割 的 各 类 距离 最 远 , 如果 
允许 若干 误差 (近似 线性 可 分 问题 ), 结果 也 是 一 样 . 对 于 线性 不 可 分 问题 , 可 以 做 
变换 , 使 之 成 为 线性 可 分 问题 . 由 于 线 性 可 分 问题 通过 Lagrange 乘 子 法 的 解 仅仅 
涉及 内 积 (对 偶 性 质 ), 线性 不 可 分 问题 就 变 成 简单 地 用 某 个 核 函 数 来 代替 单独 变 
换 的 内 积 . 回归 用 的 SVR 仅 仅 是 把 SVM 的 思想 推广 该 方法 之 所 以 称 为 支持 向 量 
机 , 是 因为 确定 一 个 分 割 超 平 面 的 不 是 所 有 的 点 , 而 是 与 超 平面 最 近 的 若干 点 , 这 
些 点 称 为 “支持 向 量 ”( 空 间 中 的 点 都 是 向 量 ), 这 样 就 有 了 支持 向 量 机 的 名 称 . 
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文 持 同 量 机 主要 是 为 了 数量 型 自 变量 设计 的 , 因此 对 于 有 大 量 定性 自 变量 的 
分 类 或 回归 问题 不 那么 适用 . 


1. 支持 向 量 机 分 类 


下 面 对 例 7.6 皮 肤 病 数据 (Dermatologyl.txt) 的 全 部 变量 和 全 部 观测 值 用 程序 
包 e1071 中 的 svm() 函 数 做 分 类 . 用 下 面 的 代码 (包括 输入 数据 ): 


w=read.table("Dermatology1.txt",header=T); w[,35]=factor(w[,35]) 
library (e1071) 

a=svm(V35 ~ ., data = Ww,kernal="sigmoid") 

zO=table(w[,35], predict(a,w)) 

Zz0; (EO=(sum(z0)-sum(diag(z0)))/sum(z0)) 


这 给 出 了 下 面 输出 展示 的 分 类 结果 , 行 是 真实 类 , 列 是 预测 类 , 得 到 误 判 率 
为 0.01092896. 


1 2 3 4 5 6 
1 112 0 0 0 0 0 
2 0 58 0 3 0 0 
3 0 0 72 0 0 0 
4 0 1 0 48 0 0 
5 0 0 0 0 52 0 
6 0 0 0 0 0 20 


文 持 巾 量 机 对 于 例 7.7 的 蘑菇 数据 不 适用 , 原因 是 因为 蘑菇 数据 的 自 变量 都 是 
定性 变量 , 而 支持 向 量 机 主要 是 为 定量 变量 设计 的 . 


2. 支持 向 量 机 回归 


下 面 用 文 持 向 量 机 对 例 7.5 住 房 数 据 (Housing) 的 全 部 变量 和 全 部 观测 值 做 回 
归 , 这 里 用 的 程序 包 为 rminer?, 代码 为 (包括 数据 输入 及 求 NMSE): 
w=read.table('housing.txt'",header=T) 
w$CHAS=factor (whCHAS) 
J]ibrary (rminer) 
set .seed(444) 
M=fit (MEDV”. ,w,model="svm") 
yO0=predict (M,w) 
(NMSE=mean( (w$MEDV-y0) “2)/mean((w$MEDV-mean (w$MEDV) ) “2)) 


得 到 NMSE= 0.1751441. 


IEvgenia Dimitriadou, Kurt Hornik, Friedrich Leisch, David Meyer and Andreas Weingessel 
(2011). e1071: Misc Functions of the Department of Statistics (e1071), TU Wien. R package version 
1.6. http://CRAN.R-project.org/package=:e1071. 

“Paulo Cortez (2011). rminer: Simpler use of data mining methods (e.g. NN and SVM) in 
classification and regression. R package version 1.1. http://CRAN.R-project.org/package—rminer. 
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7.4.6 ”交叉 验证 比较 各 个 模型 


对 于 一 个 数据 , 可 能 有 很 多 模型 来 拟 合 , 如 何 衡量 和 比较 模型 预测 精度 昵 ? 最 
客观 的 方法 是 交叉 验证 . 交叉 验证 不 需要 任何 对 背景 分 布 等 未 知 的 因素 做 任何 的 
假定 . 仅仅 是 用 训练 集训 练 出 来 的 模型 来 预测 没有 用 来 建 模 的 数据 (测试 集 ). 这 
样 得 出 的 误差 是 任何 没有 学 过 经 典 统 计 的 人 都 能 够 理解 . 交叉 验证 可 以 比较 任何 
模型 , 无 论 是 经 典 的 还 是 现代 的 .习惯 上 用 5 折 或 10 折 交叉 验证 , 这 仅仅 是 习惯 . 
其 实 折 数 越 多 , 反映 出 来 的 误差 也 越 稳定 , 但 这 需要 和 数据 的 具体 情况 相 结 合 . 假 
定 对 于 一 个 分 类 问题 做 k 折 交叉 验证 , 如 果 因 变量 有 若干 个 水 平 , 那么 每 个 水 平 都 
需要 比较 均匀 地 分 成 k 份 ,， 如 果 某 些 水 平 的 观测 值 少 于 K 个 , 那么 就 可 能 出 现 训 练 
集 和 测试 集中 各 水 平 不 一 致 的 情况 . 此 外 , 对 于 主要 定性 自 变量 的 各 个 水 平 , 也 需 
要 考虑 均衡 问题 . 因此 ,大 的 取 值 需要 和 具体 情况 相 结合 . 此 外 , 如 果 要 比较 若干 模 
型 , 这 k 折 的 观测 值 集合 应 该 对 所 有 模型 一 致 

对 于 例 7.5 住 房 数据 (housing.txt) 的 回归 , 我 们 计算 了 几 种 模型 10 折 交叉 验证 
中 对 训练 集 预测 的 标准 化 均 方 误差 (NMSE), 结果 列 在 下 表 中 : 


10 折 交叉 验证 训练 集 的 NMSE 











模型 NMSE 

线性 回归 0.2970114 
决策 树 0.3184500 
boosting 0.1496731 
随机 森林 0.1290078 
文 持 向 量 机 0.1971914 





NMSE of Cross Validation for 5 Models 
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图 7.15 几 种 模型 应 用 于 例 7.5 时 的 10 折 交叉 验证 中 训 对 练 集 预 测 的 标准 化 均 方 误差 (NMSE). 
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从 上 面 结果 可 以 看 出 , 随机 森林 的 NMSE 最 小 ,boosting 次 之 . 决策 树 误差 最 
大 , 但 基于 决策 树 的 组 合 方法 以 及 SVM 都 优 于 经 典 的 线性 模型 , 其 中 随机 森林 
的 NMSE 还 不 到 线性 模型 的 一 半 . 还 值得 指出 的 是 , 由 于 线性 模型 的 残 差 远 远 不 
是 正 态 的 (Shapiro-Wilk 正 态 性 检验 的 p 值 为 2.2 x 10-16), 不 能 做 出 其 满足 诸如 正 
态 性 等 假定 , 因此 , 对 于 系数 的 t 检 验 和 对 于 拟 合 的 F 检 验 都 失去 了 理论 基础 . 只 有 
交叉 验 证 才能 显示 其 价值 . 

对 于 例 7.6 皮 肤 病 数据 (Dermatologyl.txt) 的 分 类 , 我 们 计算 了 几 种 模型 10 折 
交叉 验证 中 对 训练 集 预测 的 误差 率 ( 错 分 类 的 比例 ), 结果 列 在 下 表 中 : 


-人 






这 在 区 列 丰 0. 和 







决策 树 0.07936508 
boosting 0.03809524 
随机 森林 0.02460317 


























文 持 辣 量 机 0.02738095 
该 结果 显示 在 图 7.16 中 . 
Error Rate of Cross Validation for 5 Models 
.Testing Sets of Dermatology Data 
| 
| 
| 
| | 
3 | 
| 
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| et [2 | | 人 | 
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7.16 儿 种 模型 应 用 于 例 7?.6 时 的 10 折 交叉 验证 中 训 对 练 集 预测 的 误差 率 . 


从 上 面 结果 可 以 看 出 , 随机 森林 的 NMSE 最 小 , SVM 次 之 . 决策 树 误差 最 大 . 
但 基于 决策 树 的 组 合 方法 以 及 SVM 都 优 于 经 典 的 线 性 判别 分 析 模 型 . 

对 于 例 7.7 荐 菇 数据 (agaricus-lepiotal.txt) 的 分 类 , 我 们 计算 了 几 种 模型 10 折 
交叉 验证 中 对 训练 集 预 测 的 误差 率 ( 错 分 类 的 比例 ), 结果 列 在 下 表 中 : 
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10 折 交 又 验证 训练 集 的 错 分 比例 
错 分 比例 











i 归 失效 
线性 判别 分 析 失效 
决策 树 0.005906803 
boosting 0 

随机 森林 0 

支持 向 量 机 失效 





从 上 面 结果 可 以 看 出 , 基于 数学 模型 的 logistic 回 归 、 线 性 判别 分 析 、 支 持 向 
量 机 都 无 法 应 付 很 多 自 变量 都 是 定性 变量 的 情况 , 而 只 有 决策 树 及 基于 决策 树 的 
组 合 方法 都 能 够 很 好 地 运作 , 其 中 随机 森林 及 boosting 的 误差 率 都 是 0. 

下 
细心 的 读者 可 能 会 想到 , 如 果 用 线性 回归 和 线性 判别 分 析 作 为 基础 模型 来 组 合 ， 

会 不 会 比 用 决策 树 作为 基础 模型 来 组 合 产生 更 好 的 结 吉 果 ? 结果 并 不 然 , 基于 数学 

模型 的 这 两 种 方法 的 组 合 结 果 并 不 理想 . 虽然 单独 来 用 可 能 有 时 强 于 决策 树 , 但 

组 合 起 来 改进 不 大 . 读者 可 以 自己 思考 其 原因 . 


7.5 频数 或 列 联 表 数 据 


7.5.1 列 联 表 数 据 及 二 维 列 联 表 的 独立 性 检验 


列 联 表 (contingency table) 是 一 种 矩阵 形式 的 表格 , 显示 的 是 定性 变量 不 
同 水 平 的 各 种 搭配 的 频数 或 计数 (count). 本 节 将 讨论 列 联 表 各 个 变量 之 间 的 关系 
及 对 频数 变量 的 建 模 问题 . 下 面 是 一 个 二 维 表 的 例子 , 


例 7.8 眼睛 和 头发 颜色 数据 (HEColor.txt) 这 是 关于 592 个 人 的 头发 和 眼 
睛 的 颜色 及 他 们 的 性 别 的 数据 (Snee，19741)， 头 发 有 四 种 颜色 : 黑色 (Black)、 
金黄 (Blond)、 棕 色 (Brown)、 红 色 (Red); 眼睛 有 四 种 颜色 : 蓝 色 (Blue)、 
标 色 (Brown)、 绿 色 (Green)、 绿 棕色 (Hazel); 而 性 别 就 是 女性 (Female) 和 男 
性 (Male); 还 有 一 个 变量 是 每 种 头发 -眼睛 -性 别 组 合 中 的 频数 (Freq)， 下 面 是 
这 个 数据 形成 的 列 联 表 . z 
Eye Blue Brown Green Hazel 


Sex Female Male Female Male Female Male Female Male 
Hair 







Black 9 11 36 32 2 3 5 10 
Blond 64 30 4 3 8 8 5 5 
Brown 34 50 66 53 14 15 29 25 
Red 7 10 16 10 7 7 7 7 


lSnee, R. D. (1974). Graphical display of two-way contingency tables. The American Statisti- 
cian, 28, 9-12, 
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这 是 由 下 和 而 RR 代码 (包括 输入 数据 ) 得 到 的 : 
w=read.table("HEcolor.txt",header=T) 
ftable(xtabs (Freq” .,w), row.vars=1,col.var=2:3) 


二 维 的 列 联 表 又 称 为 交叉 表 (cross table). 列 联 表 可 以 有 很 多 维 . 维 数 多 的 叫 
做 高 维 列 联 表 . 例 7.8 中 的 列 联 表 为 4x 4 x 2 的 三 维 列 联 表 , 列 联 表 的 变量 一 般 都 
是 定性 变量 . 但 也 可 能 有 一 些 定量 变量 与 这 些 定性 变量 同时 存在 于 原始 数据 之 中 ， 
但 数量 变量 由 于 取 值 太 多 , 不 易 在 表 中 形成 新 的 维 . 

研究 列 联 表 的 一 个 目的 是 看 这 些 变量 是 否 相 关 . 比如 例 7.8 中 的 头发 和 眼睛 颜 
色 是 否 相关 (不 考虑 性 别 时 )， 下 表 是 把 该 例 的 三 维 表 简 化 成 只 有 头发 和 眼睛 颜色 
的 二 维 表 (用 及 代码 xztabs (Freq~HairtEye ,Ww) 产 生 )， 


Eye 
Hair Blue Brown Green Hazel 
Black 20 68 5 15 
Blond 94 7 16 10 
Brown 84 119 29 54 
Red 17 26 14 14 


这 时 , 检验 眼睛 颜色 相关 性 的 零 假 设 和 备 选 假设 为 
Ho : 头发 颜色 和 眼睛 颜色 这 两 个 变量 独立 人 驴 Hi : 这 两 个 变量 不 独立 . 


这 里 的 检验 统计 量 在 零 假设 下 有 (大 样本 时 ) 近 似 的 x? 分 布 . 当 该 统计 量 很 大 
时 或 p 值 很 小 时 , 就 可 以 拒绝 零 假 设 , 因而 认为 这 两 个 变量 相关 . 对 这 个 检验 , 实 
际 上 不 止 有 一 个 x? 检 验 统计 量 . 常用 的 有 Pearson X2 统 计量 和 似 然 比 (likelihood 
ratio)X 统计 量 , 它们 都 有 同样 自由 度 的 渐 近 X? 分 布 . 这 两 个 统计 量 的 公式 将 在 后 
面 给 出 , 但 不 会 详细 介绍 . 

网 这 个 例子 而 言 , 根据 计算 可 以 得 到 (对 于 这 两 个 统计 量 均 有 )p 值 为 2.2 x 
10- 55, 几乎 为 0. 计算 的 及 代码 为 
chisq.test(xtabs(Freq~Hair+Eye ,wy)) 


因此 可 以 说 , 头发 和 了 眼睛 颜色 的 确 相 关 . 刚才 说 , 这 些 x? 检 验 是 近似 的 , 那 
么 有 没有 精确 的 检验 呢 ? 当然 有 . 这 个 检验 称 为 Fisher 精 确 检验 , 它 所 涉及 的 不 
是 X 分布 , 而 是 超 几 何 分 布 . 计算 Fisher 统 计量 得 到 的 p 值 也 很 小 . 聪明 的 读者 必 
然 会 问 , 既然 有 精确 检验 为 什么 还 要 用 近似 的 x? 检 验 昵 ? 这 是 因为 当 数 目 很 大 时 ， 
Fisher 检 验 所 基于 的 超 几何 分 布 计算 相当 缓慢 ( 比 近似 计算 会 多 很 多 倍 的 时 间 )， 
而 且 在 计算 机 速度 不 快 或 内 存 不 够 时 , 根本 无 法 计算 . 因此 人 们 多 用 大 样本 近似 
的 Xx “检验. 


7.5.2 ”高 维 列 联 表 和 多 项 分 布 对 数 线性 模型 


例 7.8 的 原始 数据 是 个 三 维 列 联 表 , 这 里 也 可 以 对 三 维 列 联 表 做 各 种 关于 独立 
性 的 检验 , 也 是 利用 Pearson x? 统 计量 和 似 然 比 (likelihood ratio)x“* 统 计量 . 利 
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用 RR 软件 ( 见 下 一 节 ), 可 以 得 到 下 面 检验 的 p 值 . 这 里 检验 和 对 两 维 列 联 表 的 检验 
类 似 , 但 意义 有 所 差异 . 这 里 多 ,YY, 2Z 分 别 代表 头发 颜色 、 眼 睛 颜色 和 性 别 . 


例 7.8 变 量 各 种 独立 性 的 检验 

































模型 记号 “| 零 假 设 似 然 比 检验 的 p 什 
(X,Y 2Z) | X,Y,2Z 互 相 独 立 24 | 0.0000000 0.0000000 
(XY,2ZF) | (X, 了 7 了) 与 2 独立 0.1891745 0.1775045 
(X,YZ) |1X 和 (7 2) 独立 0.0000000 0.0000000 
(XZ,Y) YY 和 (XX,2) 独 立 0.0000000 0.0000000 





(ZXY) | 给 定 关 时 , 了 和 2 独立 
(XY,YZ) | 给 定 Y 时 , 关 和 2 独立 0.1144483 0.1061122 
(XXZ,YZ) | 给 定 Z 时 , 和 和 YY 独立 0.0000000 0.0000000 


请 读者 自己 分 析 上 面 结果 , 至 少 没有 证 据 拒绝 性 别 (Z) 单 独 和 两 种 颜色 的 独 
芯 性 . 上 面 这 些 结果 都 是 通过 一 个 所 谓 的 多 项 分 布 对 数 线性 模型 (multinomial 
loglinear model) 来 得 到 的 . 对 于 列 联 表 ( 高 维 或 二 维 ) 都 可 以 构造 (多 项 分 布 ) 对 数 
线性 模型 来 进行 分 析 . 利用 对 数 线性 模型 的 好 处 是 不 仅 可 以 更 好 解释 数据 , 而 且 可 
以 增加 定量 变量 作为 模型 的 一 部 分 . 该 模型 之 所 以 被 冠 以 “多 项 分 布 ", 是 因为 把 
落 入 列 联 表 各 个 格子 的 频数 看 成 是 符合 多 项 分 布 的 (参见 4.3.1 节 多 项 分 布 ). 

现在 简单 直观 地 通过 例 7.8 的 三 维 表 介 绍 一 下 对 数 线性 模型 ， 用 mj; 代 
表 三 维 列 联 表 第 i 个 头发 颜色 , 第 ;个 眼睛 颜色 及 第 k 种 性 别 的 期 望 频数 (这 
里 i 和 7 取 1,2, 3,4 个 值 之 一 , k 取 1 或 2)， 假 定 列 联 表格 子 中 的 期 望 频数 (各 种 组 
合计 数 ) 属 于 多 项 分 布 , 该 期 望 频数 可 以 用 下 面 的 公式 来 描述 : 

In (miyx) 一 凡 十 Qi 十 OB; 十 Yk. 


这 就 是 所 谓 的 (多 项 分 布 ) 对 数 线性 模型 ， 这 里 式 子 右边 为 头发 颜色 的 第 i 个 水 
阅 Q; 眼 频 颜 色 的 第 ;个 水 平 8; 性 别 的 第 k 个 水 平 Y 对 In(mijx) 的 综合 影响 . 这 三 个 
影响 称 为 主 效 应 (main effect). 除了 主 效应 之 外 ， 还 有 可 能 有 交互 效应 或 交互 
作用 (interaction), 交互 效应 意味 着 多 个 变量 同时 作用 时 对 ln(msj ) 的 效果 不 
是 这 些 变量 主 效应 的 简单 相 加 , 而 是 或 者 多 一 些 ， 或 者 少 一 些 . 对 于 例 7.8 来 说 , 较 
完全 的 模型 应 该 有 两 个 变量 的 交互 效应 和 三 个 变量 在 一 起 的 交互 效应 , 这 种 把 所 
有 变量 的 所 有 效应 都 列 出 的 模型 称 为 饱和 模型 (saturated model), 下 面 就 是 
例 7.8 的 饱和 模型 : 
In(mijr) = H+ oit pb; t+ Yr t+ (aB)i + (By) + (Ba) (QBY) i 


尽管 在 模型 中 可 以 写 上 很 多 效应 , 但 不 一 定 都 有 意义 . 前 面 给 出 的 变量 各 种 独 
立 性 的 检验 表 中 所 列 的 实际 上 就 是 对 这 个 饱和 模型 的 各 种 形式 的 检验 . 细节 这 里 
融 不 介绍 了 . 上 面 模型 中 的 关于 效应 的 参数 很 多 , 但 它们 只 有 相对 意义 . 在 公式 中 
还 有 一 个 截 距 项 /, 它 在 这 个 模型 中 没有 什么 意义 , 但 在 软件 输出 中 可 能 会 出 现 ， 
这 有 数学 上 的 原因 , 主要 是 因为 各 个 效应 不 能 单独 估计 出 来 , 也 就 是 说 , 总 有 截 距 
混在 一 起 , 说 不 清 截 距 有 多 少 属于 某 个 效应 . 但 无 论 如 何 , 效应 之 间 的 差 , 比如 


Q1 Qo Qo 一 Qa3, Qs 一 QG1，aQl 十 as — 203 


0.4642751 0.4648372 
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等 等 是 完全 可 以 估计 的 , 因为 在 这 些 差 中 , 截 距 被 减 掉 了 . 在 软件 中 也 可 以 输出 
那些 单独 或 交互 效应 的 “估计 ” 值 , 这 里 的 估计 之 所 以 打 引 号 是 因为 一 个 效应 (以 
用 a 表示 的 变量 为 例 ) 各 个 水 平 的 影响 是 相对 的 , 因此 , 只 有 事先 固定 一 个 参数 
值 ( 比 如 设 定 菜 a; = 0), 或 者 设 定 类 似 于 > ,ai = 0 这 样 的 约束 , 才 可 能 估计 出 各 
个 oa 的 值 . 没有 约束 , 这 些 参数 是 算 不 出 来 的 . 

用 (多 项 分 布 ) 对 数 线性 模型 可 以 在 总 观测 数 固定 时 估计 ”mij 的 值 , 但 一 般 来 
说 多 项 分 布 对 数 线 性 模型 并 不 是 用 于 预测 , 而 是 通过 这 个 模型 做 上 面 提 到 的 各 种 
检验 ， 下面 用 只 有 头发 颜色 和 眼睛 颜色 两 个 主 效应 的 In(mij) = 1 十 oi 十 60, 模型 
来 拟 合 例 7.8 数 据 , 用 RR 代码 
library (MASS); a=loglm(Fregq“HairtEye,w) ;a$para 
得 到 这 些 参数 几 ， Ci B; 的 估计 : 
$ (Intercept) 
[1] 2.648531 


$Hair 

Black Blond Brown Red 
-0.17911627 -0.01706041 0.79474431 -0.59856762 
$Eye 

Blue Brown Green Hazel 


0.5067010 0.5296905 -0.7050540 -0.3313375 


显然 ,这些 参数 的 约束 条 件 是 > ,a = 0,》 0 = 0. 从 输出 中 可 以 看 
出 ,Qs 和 Bj; 的 估计 为 (估计 值 用 “ 戴 了 帽子 ”的 & 和 PB; 表示 ): 
b= 2.648531, &1 = —0.17911627, &, = —0.01706041, 
Gs = 0.79474431, cs = —0.59856762, 
由 = 0.5067010, Ba = 0.5296905， 记 = —0.7050540, Bs = —0.3313375 


思考 一 下 : 


1. 用 例 7.8 数 据 拟 合 的 In(7ni;) == 上 十 Qi 十 Bj 模型 实际 上 是 4 x 4 二 16 个 式 子 , 每 
个 右边 为 一 个 常数 . 请 想 一 下 模型 In (mi;) 三 从 十 Qi 十 局; 十 (aB)ij 一 共有 多 少 
式 子 呢 ? 


. 请 大 家 对 多 项 分 布线 性 模型 的 注意 力 集中 在 有 关 变 量 是 否 独立 这 个 问题 上 面 ， 
模型 本 身 的 预测 功能 并 没有 吸引 多 少 注意 力 . 但是, 下 一 节 的 Poisson 对 数 线 
性 模型 则 正 相反 , 那里 主要 应 注意 模型 本 身 . 


. 在 回归 中 也 有 交互 作用 与 饱和 模型 , 请 讨论 . 





7.5.3 ”Poisson 对 数 线 性 模型 
有 的 时 候 , 类 似 的 高 维 表 并 不 一 定 满足 多 项 分 布 对 数 线性 模型 .比如 波浪 造 
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成 的 船舶 损害 、 某 地 由 于 AID 病 死亡 的 人 数 、 某 种 病 的 发 病 数目 、 某 区 域 自杀 的 
数目 、 宇 宙 飞 船 被 空间 粒子 击 中 的 次 数 、 某 地 区 的 交通 事故 数 等 等 , 这 些 都 有 可 
能 近似 地 符合 Poisson 分 布 的 (参见 第 四 章 ). 下 面 看 一 个 例子 . 


例 7.9 机 器 事故 (acc2.txt) 这 是 关于 某 类 机 器 发 生 事故 次 数 (Incidents)、 机 
龄 (Time, 定量 变量 )、 机 器 型 号 (Machine, 两 种 机 器 : 1, 2)、 操 作 人 (Person, 两 
类 操作 工人 : 1, 2) 的 数据 . 

这 个 问题 显然 和 列 联 表 的 问题 不 一 样 ， 也 不 能 用 前 面 解 决 列 联 表 的 方法 来 解 
决 . 可 以 考虑 Poisson 对 数 线 性 模型 . 假定 发 生 事故 服从 Poisson 分 布 , 但 是 由 于 条 
件 不 同 , Poisson 分 布 的 参数 和 也 应 该 随 着 条 件 的 变化 而 改变 . 这 里 的 条 件 就 是 所 给 
出 的 机 龄 、 型 号 与 工人 类 别 等 三 个 变量 . 当然 ， 这 里 所 关心 的 是 这 些 变量 如 何 影 
. 啊 Poisson 分 布 , 以 及 这 些 影响 是 否 显著 . 这 个 模型 可 以 写成 

In(A) = Li + Bj + YY, 


这 里 和 为 常数 项 , Qa; 为 机 器 类 别 (i = 1, 2 分 别 代表 两 个 水 平 ), 8; 为 操作 者 类 别 (7 = 

1, 2 代表 两 个 水 平 )，z 为 连续 变量 机 龄 ， 而 7 为 年 龄 前 面 的 系数 ， 这 里 之 所 以 

对 Poisson 分 布 的 参数 和 (> 0) 取 对 数 , 是 为 了 使 模型 左边 的 取 值 范围 为 整个 实数 . 
用 例 7.9 数 据 拟 合 Poisson 对 数 线性 模型 , 这 次 用 及 软件 来 计算 , 代码 为 


m=read.tablje("acc2.txt" ,header=T) 

m$Machine=factor (m$Machine) : m$Person=factor (m$Person) 
a=glm(Incidents“Time+Machine+Person, family="poisson" ,data=m) ， 
summary (a) 


得 到 下 面 输出 : 


Coefficients: 
Estimate Std. Error z value Pr(>|z|) 
(Intercept) -0.655345 0.385525 -1.700 0.089154 


Time 0.005937 0.001662 3.571 0.000355 
Machine2 0.416216 0.176388 2.360 0.018291 
Person2 0.143591 0.176933 0.812 0.417047 


这 意味 着 对 /的 估计 为 -0.655345， 对 a; 的 两 个 值 的 “ 估 计 ” 为 0.000000， 
0.416216， 对 Bj; 的 两 个 值 的 “估计 "为 0.000000，0.143591， 对 斜率 y 的 估计 
为 0.005937. : 

和 前 面 多 项 分 布 对 数 线性 模型 类 似 ， 这 里 的 对 主 效应 a; 和 ;的 估计 只 有 相对 
意义 , 它们 是 在 一 个 参数 设 定 为 0 的 约束 条 件 下 得 到 的 . 从 模型 看 上 去 , 对 于 事故 
来 说 , 操作 者 并 不 那么 重要 . 机 龄 和 型 号 都 还 显著 , 但 机 龄 似乎 更 重要 ， 

注意 ,并 不 是 所 有 的 类 似 数 据 用 Poisson 对 数 线性 模型 都 适用 ， 必 须 大 体 上 
有 Poisson 分 布 的 背景 . 一 般 来 说 , 在 某 些 固定 的 条 件 下 , 人 们 认为 某 些 事件 出 现 
的 次 数 服 从 Poisson 分 布 , 比如 在 某 一 个 时 间 段 内 某 种 疾病 的 发 生 数 、 显 微 镜 下 的 
微生物 数 、 血 球 数 、 门 诊 病 人 数 、 投 保 数 、 商 店 的 顾客 数 、 公 共 汽 车 到 达 数 、 电 
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话 接 通 数 等 等 . 然而 , 条 件 是 不 断 变化 的 . 因此 , 所 涉及 的 Poisson 分 布 的 参数 也 随 
着 变化 . 这 也 就 使 得 了 了 人们 考虑 Poisson 对 数 线 性 模型 

由 于 Poisson 分 布 只 有 一 个 参数 和 , 它 既 是 均值 又 是 方差 , 但 在 实际 数据 中 
的 均值 与 方差 可 能 不 同 ， 这 时 , 如果 强行 用 Poisson 模 型 拟 合 就 会 产生 实际 方差 
大 于 均值 的 所 谓 过 离散 (overdispersion) 现 象 或 者 实际 方差 小 于 均值 的 人 欠 离 
散 (underdispersion) 现 象 . 这 时 可 能 需要 用 有 两 个 参数 的 模型 , 比如 负 二 项 分 
布 或 gamma 分 布线 性 模型 等 其 他 模型 来 拟 合 . 这 有 些 超出 了 本 书 范围 , 但 过 离散 
和 从 离散 现象 绝 非 少见 . 

对 数 线性 模型 还 有 一 个 问题 就 是 数据 中 计数 为 0 的 数目 大 大 多 于 其 他 的 整数 ， 
这 种 数据 称 为 零 膨 胀 计数 数据 (zero-inflated count data). 这 也 需要 专门 对 
付 , 例如 , 及 软件 中 的 程序 包 psc1 就 有 应 付 零 膨 胀 计数 数据 的 程序 . 


思考 一 下 : 


1. Poisson 对 数 线性 模型 也 会 有 交互 作用 ， 应 该 注意 到 模型 变量 间 的 交互 作用 往 
往 被 一 些 分 析 者 所 忽视 , 而 在 许多 情况 下 , 交互 作用 可 能 比 主 效 应 更 显著 . 


2. 请 讨论 一 下 Poisson 对 数 线性 模型 和 多 项 分 布 对 数 线性 模型 的 区 别 . 








7.6 “小 结 


7.6.1 本 章 的 概括 和 公式 
1. 相关 


本 章 介 绍 了 线性 相关 分 析 及 衡量 相关 的 三 个 度量 : Pearson 相 关系 
数 、Kendall t+ 相 关系 数 和 Spearman p 秩 相关 系数 .其 中 Pearson 相 关系 数 的 
原理 是 把 每 一 对 观测 值 (zx;,y;) 中 的 yi; 值 到 均值 y 的 距离 y 一 jy 与 相应 的 x; 值 到 jz 的 
距离 Zi 一 元 相 乘 , 得 到 (zx; 一 )(y; 一 可 )， 如 果 这 个 乘积 为 正 , 那么 说 明 相 对 于 各 
目的 均值 , xz; 和 wy; 的 变化 趋势 一 样 , 如 果 这 个 乘积 为 负 , 那么 说 明 它 们 的 变化 趋势 
相反 . 把 样本 中 所 有 这 些 乘积 相 加 , 得 到 和 > (zx; 一 £)(y; 一 臣 ， 如 果 样 本 中 的 乘 
果 这 些 乘积 多 数 为 负 , 那么 乘积 和 为 绝对 值 很 大 的 负数 ; 如 果 这 些 乘积 的 正 负 号 差 
不 多 , 那么 乘积 和 就 接近 于 0. 再 把 它 标准 化 , 就 成 为 取 值 在 -1 和 1 之 闻 的 一 个 量 
了 , 即 Pearson 相 关系 数 , 其 公式 为 
DilTi — 7) Di (Yi — Y)? 
这 里 31,.…, Tj 和 1,.…., yn 为 两 个 样本 的 观测 值 . 

所 有 这 三 个 相关 系数 是 一 1 到 1 之 间 的 数 , 越 接 近 1( 或 -1) 就 越 正 ( 负 ) 相 关 , 越 
接近 0, 就 越 不 相关 . 和 这 三 个 相关 系数 有 关 的 是 三 个 检验 统计 量 ( 零 假设 为 相关 系 
数 为 0), 其 中 与 Kendall + 相关 系数 和 Spearman p 秩 相关 系数 相关 的 检验 属于 非 


7 一 
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参数 检验 范畴 (与 总 体 分 布 无 关 ). 注意 , 如 果 拒绝 零 假 设 , 即 得 到 相关 系数 不 为 0 的 
结论 , 但 这 不 意味 相关 , 因为 相关 系数 很 小 , 也 是 不 为 零 . 计算 两 个 变量 z 和 y 的 样 
本 相关 系数 (三 种 选项 ) 的 R 代 码 为 


cov(x, y, method = c("pearson", "kendall", "spearman")) 
y P P 


这 里 默认 值 为 后 面 nethod 的 第 一 个 选项 (Pearson 相 关系 数 ), 如 果 要 得 到 其 他 相 
关系 数 , 比如 Kendall r, 则 可 用 代码 cor (x,y,method="kendall"). 

对 两 个 变量 定义 了 相关 系数 之 后 , 对 一 组 变量 可 以 定义 相关 阵 ， 假定 该 组 
有 p 个 变量 , 它们 的 相关 阵 为 一 个 p x p 和 矩阵 , 其 第 ij 个 元 素 为 第 i 个 变量 和 第 ;个 变 
量 的 相关 系数 ， 对 角 线 元 素 是 变量 和 自己 的 相关 系数 , 等 于 1， 样本 相关 阵 很 容 
易 从 有 软件 得 到 , 假定 w 是 一 个 数量 变量 的 数据 矩阵 (行为 观测 值 , 列 为 变量 ), 代 
码 cor(w) 就 给 出 了 样本 相关 系数 阵 . 


2. 经 典 线性 回归 和 分 类 


(a) 经 典 线性 回归 分 析 
对 于 自 变 量 和 因 变 量 (假定 有 K 个 自 变 量 和 一 个 因 变 量 ) 都 是 定量 变量 时 , 回归 
模型 为 
y= Bot+ABrit:+ herrk+t €, 


这 里 80, 81,..., Bi 称 为 回归 系数 ，e 为 误差 项 . 本 书 介 绍 的 是 用 最 小 二 乘法 来 得 到 
直线 的 参数 ， 在 回归 时 , 如 果 有 误差 项 为 独立 同 正 态 分 布 的 假定 , 就 可 以 对 各 
个 回归 系数 (t 检 验 ) 和 整个 模型 的 拟 合 (F 检 验 ) 进 行 检验 ， 当 然 模 型 也 可 能 会 有 两 
个 或 两 个 以 上 变量 的 交互 作用 (比如 还 有 zi; 及 7; 的 交互 作用 , 上 面 方程 就 增加 一 
项 Bi;xiz;). 此 外 还 有 描述 拟 合 的 统计 量 玉 (决定 系数 ), 定义 为 
> (Yi 一 $i) 
R* 一 1] 一 人 1 一 一 ， 
Di — 
它 越 接近 1, 代表 拟 合 越 好 . 而 调整 的 及 定义 为 
5 p2 /1 pp2 k 
R=R (1 下) 一 T， 
这 里 nn 为 观测 值 数 目 , 为 自 变量 的 数目 . 注意 , R? 仅 仅 描 述 拟 合 , 其 对 于 模型 其 他 
性 质 没有 多 大 发 言 权 . 
当 自 变量 有 定性 变量 时 , 经 典 回归 模型 会 有 所 不 同 . 比如 例 7.2 的 含有 2 个 水 平 
的 变量 4 作为 自 变 量 的 模型 就 成 为 
4 一 /十 (+ 记 )Z 二 ai 十 6 1= 1,2 


这 里 的 al, as (B1, Bs 也 一 样 ) 只 有 相对 大 小 可 以 估计 , 因此 要 设立 对 它们 的 约束 条 
件 , 比如 设 一 个 等 于 0, 或 者 它们 的 和 为 1 等 等 . 在 没有 交互 作用 时 , 分 析 结 果 时 可 
看 它们 的 相对 大 小 , 比如 ai 一 as 和 as 一 as 等 . 

(b) 两 个 属性 的 分 类 : logistic 回归 
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当 因 变量 为 二 水 平定 性 变量 时 , 把 它 看 成 成 功 概 率 为 p 的 Bernoulli 试 验 的 结 
果 . 但 成 功 概率 p 为 自 变量 的 函数 , 于 是 模型 就 变 成 


| ) = xXr8 
工 一 了 


这 里 方程 右边 的 解释 和 线性 回归 类 似 . 
(c) 自 变 量 为 数量 变量 的 分 类 : 线性 判别 分 析 

判别 分 析 利 用 了 有 若干 变量 值 的 一 些 已 知 其 所 属 类 别 的 观测 点 (训练 样本 )， 
并 用 它们 来 导出 基于 这 些 变量 的 对 未 知 观测 点 的 分 类 方法 . 有 2 个 变量 的 一 个 观 
测 值 为 p 维 空间 的 一 个 点 . 有 点 就 可 以 定义 距离 , 判别 分 析 的 基本 原理 是 一 个 点 应 
该 属于 离 它 最 近 的 那 一 类 . 为 了 更 好 地 区 分 各 类 , Fisher 判 别 分 析 在 分 析 距 离 前 先 
进行 投影 , 使 得 各 类 的 投影 尽 可 能 分 开 , 而 各 类 内 部 尽 可 能 密切 . 由 于 并 不 是 所 有 
变量 在 进行 判别 分 析 时 都 是 重要 的 , 因此 , 可 以 一 边 判 别 , 一 边 对 变量 进行 筛选 
这 就 是 逐步 判别 . 

判别 分 析 方 法 很 多 , 所 涉及 的 公式 很 烦 杂 . 不 同 的 距离 定义 、 不 同 的 方法 都 
涉及 很 多 的 公式 我们 觉得 不 引进 这 些 公式 既 不 会 妨碍 对 判别 分 析 概 念 的 理解 . 
也 不 会 影响 对 实例 的 判别 . 有 兴趣 刨 根 问 底 的 读者 请 参阅 有 关 的 多 元 分 析 的 出 版 
物 . 这 里 仅 就 Fisher 判 别 法 中 如 何 寻 找 投影 方向 的 数学 予以 描述 ， 记 点 x 在 以 a 为 
法 方 同 的 投影 为 a7x. 而 各 组 数据 的 投影 为 (假定 有 k 类 , 而 第 i 类 有 ni 个 点 ) 

G;: arzi 0 ££ = 1,...,k. 


将 Gm 类 中 数据 投影 的 均值 记 为 a7z(", 则 有 


1 < 
Q7 元 0m) 一 元 >》 7 二， m = 1,...,k. 


“4 一 工 





记 k 类 数据 投影 的 总 均值 为 a7z, 则 有 


类 间 离 差 平方 和 为 


k 
SSG = >》 nm(a! Zz 一 QT 天) 
?一 二 
k 
一 0 >》 mm (到 tm) 一 五 (元 0) 一 有 | aa=a7Ba， 


?2 一 工 


这 里 BB = 并 _， man(5(m) 一 5)(z(m 一 5)T, 类 内 离 差 平方 和 为 
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这 里 五 = Se ME 元 (zt 一 元 om)7 .根据 Fisher 方 法 的 原则 , 希望 
寻找 方向 a 使 得 类 间 离 差 平 方 和 SSG 尽 可 能 大 而 类 内 离 差 平方 和 SSE 尽 可 能 小 ， 
也 就 是 说 , 使 得 各 类 内 部 点 尽 可 能 地 接近 , 而 各 类 之 间 尽 可 能 分 开 , 一 个 途径 就 是 
望 
生 a!: Ba | 
CQ Ea 
尽 可 能 大 . 而 使 得 A(a) = a7Ba/a7TEa 尽 可 能 大 的 向 量 a 为 方程 |B 一 和 AE| = 0 的 
最 大 特征 根 和 所 相应 的 特征 向 量 ( 这 是 所 谓 的 广义 特征 值 问 题 ), 而 最 大 值 就 是 该 
特征 根 入， 记 方 程 |B -- 和 E| = 0 的 全 部 特征 根 为 A 之 .… > 入 > 0, 相应 的 特征 
向 量 为 01,:… ,v.， 而 入 的 大 小 可 以 用 来 评估 判别 函数 y;(z) = vzz(= azz) 的 效 
果 . 如 果 记 wp; 为 判别 能 力 (效率 ), 即 前 面 说 的 贡献 率 , 有 Pi = 入 /0%_j 和 4, 而 m 个 
判别 函数 的 累积 判别 能 力 或 累积 贡献 率 定义 为 p; = > 也 Xi > 和. 然 
后 , 根据 累积 贡献 率 的 大 小 来 选择 取 几 组 方向 . 比如 选取 两 个 方向 , 得 到 两 个 典 则 
判别 函数 五 和 五. 投影 之 后 , 每 个 观测 值 根据 这 两 个 函数 就 得 到 两 个 坐标 , 成 为 这 
两 个 方向 所 组 成 的 平面 中 的 一 个 二 维 点 (如 图 7.6). 然后 根据 距离 各 类 重心 远近 来 
决定 任意 一 个 点 应 该 划 归 哪 一 类 . 


3.， 现代 分 类 和 回归 : 机 器 学 习 方 法 


前 面 的 经 典 回 归 和 分 类 方法 的 实施 需要 许多 无 法 验证 的 数学 假定 , 而 且 都 是 
线性 的 , 对 于 自 变量 中 定性 变量 的 适应 性 很 差 . 这 里 介绍 的 几 种 现代 分 类 和 回归 
方法 没有 任何 总 体 分 布 的 限制 , 所 有 的 问题 都 可 以 是 非 线 性 的 , 除了 文 持 问 量 机 之 
外 , 这 些 方法 对 于 处 理 大 量 定性 变量 非常 方便 . 判别 预测 方法 的 好 坏 及 比较 不 同 的 
方法 的 预测 效果 可 以 用 交叉 验证 来 实行 . 交叉 验证 可 以 用 于 各 种 模型 ， 由 于 交叉 
验证 不 需要 任何 大 学 本 科 概 率 论 与 统计 的 知识 , 任何 领域 的 人 都 能 够 理解 其 结 来. 

由 于 这 里 介绍 的 方法 主要 是 算法 , 除了 支持 向 量 机 之 外 没有 多 少数 学 内 容 . 这 
里 只 做 简单 概 丘 . 

(a) 决策 树 : 组 合 方法 的 基石 . 

决策 树 一 开始 就 以 处 理 定 性 变量 及 分 类 问题 为 出 发 点 的 , 而 这 些 是 传统 统计 
的 弱项 . 决策 树 的 要 点 是 选择 最 能 够 使 因 变量 观测 值 变 纯 或 残 差 平方 和 最 小 的 拆 
分 变量 . 决策 树 的 结果 很 容易 理解 , 也 很 好 应 用 . 虽然 单独 的 决策 树 的 结 末 可 能 不 
如 其 他 一 些 方 法 , 但 其 组 合 起 来 则 成 为 可 以 非常 精确 预测 的 组 合 方法 . 

(b) 组 合 方法 : boosting 和 随机 森林 

我 们 这 里 仅 介 绍 了 两 种 组 合 方法 . 它们 都 基于 对 样本 进行 放 回 再 抽样 来 建 芯 
许多 决策 树 . 在 抽样 上 , boosting 每 次 都 根据 前 一 棵 树 的 结果 调整 对 观测 值 的 抽 
样 权 数 , 以 使 得 结果 不 好 的 观测 值 有 更 大 的 代表 性 , 而 随机 森林 则 一 直 都 是 等 权 抽 


A(a) = 
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样 ; 在 选择 每 棵 树 的 拆 分 变量 上 , boosting 是 让 所 有 变量 平等 竟 争 , 而 随机 森林 则 
仅仅 在 随机 选 出 的 若干 变量 之 间 竞 争 , 以 增加 某 些 变量 的 代表 性 ; 在 最 后 的 投票 
上 , 随机 森林 为 等 权 投票 , 而 boosting 是 按照 各 个 树 的 误差 大 小 来 加 权 投 票 ; 在 树 
的 数目 上 , 随机 森林 要 大 大 多 于 boosting. 它们 都 不 会 过 拟 合 , 为 很 优秀 的 分 类 和 
回归 方法 . 
(c) 支持 向 量 机 的 原理 

支持 向 量 机 虽然 对 于 大 量 分 类 变量 的 自 变 量 不 那么 有 效 , 但 的 确 是 一 个 很 好 
的 方法 . 其 数学 原理 简要 概括 如 下 : 


1. SVM 分 类 . 假定 其 目的 是 把 空间 中 的 两 类 点 (y = 一 1 或 y = 1) 用 超 平 
面 wz 十 6 二 0 分 开 ( 在 所 谓 严格 线性 可 分 的 情况 下 , 存在 这 样 的 超 平面 ), 而 且 希 
望 这 个 超 乎 面 距离 两 类 点 的 距离 最 大 , 也 就 是 说 , 使 得 隔离 带宽 o == 2/|jw|| 最 大 . 
这 等 价 于 用 Lagrange 乘 子 法 求 下 式 的 极 小 值 . 


] 多 
?一 ] 


根据 得 到 的 解 tw*,b*,a* 得 到 最 优 分 割 超 平面 方程 w*Tw 十 bw 二 0. 任 
意 捕 (2) 的 函数 值 w*7zw 十 天 的 符号 确定 了 该 点 的 分 类 ,或 者 说 判别 函数 
为 sgn(w*iz 十 0*). 上 面 是 严格 线性 可 分 的 情况 . 如 果 人 允许 一 些 错误 ， 则 称 为 
近似 线性 可 分 问题 , 结果 与 此 有 同样 的 形式 .可 以 注意 到 ， 这 些 结果 有 下 面 从 赖 
于 内 积 的 对 偶 (duel) 性 质 ， 首先, 这 里 的 建 模 过 程 仅仅 依赖 于 训练 集 点 对 的 内 积 . 
其 次 , 判别 过 程 仅仅 依赖 于 未 知 点 和 训练 集中 支持 向 量 的 内 积 . 这 种 依赖 于 内 积 的 
独特 的 性 质 使 得 我 们 能 够 解决 线性 不 可 分 的 问题 . 对 于 线性 不 可 分 问题 , 可 能 需要 
一 些 变换 z 于 (7), 这 些 变换 是 很 难 猜 到 的 , 但 基于 对 偶 性 质 , 可 以 猜测 较 灵活 的 
核 函数 扩 (z zj) = (2;)7B(z;) 而 非 B(-) 本 身 . 
2. SVM 回 归 或 SVR.. 在 回归 问题 中 , y 不 仅仅 是 -1 和 1. 令 f(z) = wTz 十 忆 
希望 y 与 f(z) 的 离 差 越 小 越 好 ， 问题 还 是 归结 于 求 使 得 lw 上 /2 = wT7rw /2 最 小 
的 w, 但 约束 条 件 是 | 一 /zi)l| < 6 这 里 e 为 某 目标 值 . 类 似 于 SVM 分 类 ， 允 
许 一 些 误差 , 这 样 就 可 以 把 上 面 的 约 东 放宽 为 (对 于 大 于 0 的 &;,&) y; 一 (zi) < 
E 十 及 (Ti) 一 yi; 之 cE 十 避 , 即 得 到 Lagrange 函 数 : 


1 。 
Uw bb on = 5 tC + 一 > 天 
一 >》 oile 十 各 一 下 十 Ta 十 站 
一 Sai(eté + ~ wpb). 


逢 要 在 约束 条 件 Q,m > 0 下 , 解 minwwe {maxaw 工 (ww,b,&, a 站 )} 问 题 . 对 于 非 线性 
问题 , 和 前 面 SVM 分 类 一 样 , 利用 核 函 数 来 解决 . 
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4.， 频数 和 列 联 表 数 据 


本 章 首先 介绍 了 什么 是 列 联 表 , 它 是 若干 定性 变量 的 各 种 可 能 取 值 (水 平 ) 组 
合 的 出 现 频 数 表 . 研究 列 联 表 的 主要 目的 是 看 这 些 变量 是 否 相 关 . 而 分 析 的 主要 
手段 是 使 用 x2? 检 验 . 检验 统计 量 是 Pearson x? 统 计量 和 似 然 比 x* 统 计量 . 在 零 假 
设 (不 相关 ) 下 , 这 两 个 x 统 计量 都 有 渐 近 的 X? 分 布 . 通过 计算 机 软件 , 可 以 得 到 
所 需要 的 p 值 . 这 里 x2 检 验 的 零 假 设 是 二 维 表 中 行 变量 和 列 变 量 不 相关 (检验 相关 
性 ), 或 者 是 对 数 线性 模型 没有 意义 (检验 拟 合 优 度 ). 实际 上 二 维 列 联 表 的 相关 性 
检验 等 价 于 二 维 表 相应 的 对 数 线性 模型 的 拟 合 优 度 检验 (test of goodness of fit)， 
即 检验 模型 拟 合 的 好 坏 . 
Pearson Xx 统计 量 和 似 然 比 x* 统 计量 是 怎么 定义 的 昵 ? 假定 列 联 表 有 nn 个 格 
子 , 在 例 7.8 数 据 中 n = 4 x 4 x 2 = 32 个 格子 . 而 各 个 格子 里 和 面 的 数目 (频数 ) 假 
定 为 O01,..…., Oa， 根据 零 假设 , 可 以 算出 每 个 格子 数目 的 期 望 值 i,.…., EB， 这 里 
用 字母 0 表示 观测 的 值 (observed value), 字母 表示 零 假 设 下 期 望 的 值 (expected 
value). 这 样 Pearson Xx?* 统 计量 Q@ 和 似 然 比 x? 统 计量 了 就 分 别 定义 为 
— (O; — E:)? - Ci 
Q -2 和 了 = 22 0: 
直观 上 说 , 如 果 零 假设 正确 , 则 通过 零 假设 得 到 的 期 望 的 Bi; 不 会 和 观测 的 O; 差 太 
远 . 那么 @ 和 了 就 不 会 很 大 , p 值 也 不 会 很 小 , 则 不 能 拒绝 零 假 设 . 但 如 果 零 假设 不 
对 , 那么 到 ;就 会 和 观测 的 O; 差 很 远 , 于 是 @ 和 了 就 会 很 大 , 这 样 就 得 到 很 小 的 尾 概 
率 p 值 , 以 全 于 拒绝 零 假设 . 
对 于 列 联 表 还 可 以 用 (多 项 分 布 ) 对 数 线性 模型 来 描述 ， 以 二 维 列 联 表 为 例 ， 
用 mi; 表 示 第 (i7) 个 格子 的 期 望 频 数 , 那么 只 有 主 效 应 的 对 数 线性 模型 为 
In(mi;) = Qi + by. 


这 相应 于 只 有 主 效应 a; 和 6;, 而 这 两 个 变量 的 效应 是 简单 可 加 的 . 但 是 有 时 , 两 个 
变量 在 一 起 时 会 产生 附加 的 交互 效应 , 这 时 , 相应 的 对 数 线性 模型 就 是 

In(mi;) = oi + Bj + (aB)iy. 
由 于 前 面 对 这 个 模型 已 有 解释 , 这 里 就 不 重复 了 . 

对 于 表格 中 数目 有 符合 Poisson 变 量 的 特定 意义 时 (比如 例 7.9 的 事故 数 ), 就 要 
考虑 是 否 用 Poisson 对 数 线性 模型 ， 如 例 7.9 那 样 有 两 个 定性 变量 及 一 个 定量 变量 
的 Poisson 对 数 线性 模型 可 以 表示 为 

In(A) = k++ oi+tB; + YY. 
这 里 j/ 为 常数 项 , a; 和 Bj; 为 两 个 定性 变量 的 主 效 应 , x 为 连续 变量 , 而 y 为 其 系数 . 
这 里 之 所 以 对 Poisson 分 布 的 正 参 数 和 取 对 数 , 是 为 了 使 模型 左边 的 取 值 范围 为 整 
个 实数 轴 . Poisson 对 数 线性 模型 有 可 能 有 过 离散 , 欠 离 散 的 问题 , 还 可 能 有 零 脱 
胀 计数 问题 , 这 可 能 会 使 得 该 模型 完全 失效 , 必须 注意 . 
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7.6.2”R 语 名 的 说 阴 


由 于 除了 交叉 验证 之 外 所 有 关于 回归 和 分 类 的 例子 的 RR 代码 都 在 正文 中 解释 
了 , 这 里 仅 就 & 折 交叉 验证 如 何 建立 训练 集 和 测试 集 的 做 一 简要 说 明 ， 此 外 , 对 一 
些 列 联 表 数据 检验 等 未 在 正文 明示 的 及 软件 使 用 也 在 此 做 一 汇总 . 
1. 把 n 个 下 标 随 机 地 分 为 k 份 

这 个 比较 简单 , 下 面 是 个 小 函数 : 
CV1l=function(n=100,k=10,seed=888){ # 输 入 样本 量 n， 折 数 K 和 随机 种 
了 seed 
z=rep(1:k,ceiling(n/k)) [1:n] 
set.seed(seed) ;z=sample(z,n) 
mm=list();for (i in 1:k) mm[[i]]=(1:n) [z==i] 
return(mm)} # 最 后 得 到 的 mm 的 每 一 个 分 量 mm[ [i]] 是 第 i 折 的 下 标 集 

以 例 7.5 住 房 数据 (Housing.txt) 为 例 , 下 面 是 包括 输入 数据 在 内 的 对 线性 回归 
预测 的 10 折 交叉 验证 程序 , 对 于 其 他 方法 也 类 似 编程 . 这 里 利用 了 上 面 的 函数 . 
w=read.table("housing.txt",header=T) 


w$CHAS=factor (w$CHAS) 
(n=nrow (Ww)) ;k=10;mm=CV1 (n ,kk) 


NMSE=rep (0 ,k) # 建 立 一些 向 量 以 存 结果 
for(i in 1:k){ # 对 每 一 组 训练 集 和 测试 集 做 一 次 ， 共 k 次 
m=mm[ [i]] #m 为 测试 集 下 标 集合 


a=lm(MEDV”. ,data=w[-m,])  # 简 单线 性 回归 ， 这 里 [-m] 为 训练 集 下 标 集合 
yl=predict(a,w[m,])  # 对 测试 集 预 测 

# 测 试 集 的 NMSE: 

NMSE [ij=mean((Cw$MEDV [m] -yl1) ”2)Vmean((w$MEDV [m] -mean(w$MEDV [m] ) ) “2)} 
(MNMSE=mean (NMSE)) # 下 面 输出 训练 集 及 测试 集 的 平均 NMSE: 


2. 把 n 个 下 标 按 照 定性 因 变 量 的 类 型 均衡 地 随机 分 为 k 份 


有 些 因 变量 的 水 平 (类 ) 很 不 平衡 , 为 了 使 得 在 交叉 验证 的 每 一 折 中 , 每 个 水 
平 (类 ) 者 有 相应 的 代表 , 必须 把 每 一 类 都 分 成 k 份 这 个 必须 具体 例子 具体 分 析 . 
束 例 7.6 皮 肤 病 数据 (Dermatology1.txt) 为 例 , 因 变 量 (第 35 个 变量 V35) 有 六 个 水 
平 , 相应 于 各 水 平 的 观测 值 数目 不 那么 均匀 . 为 此 , 以 10 折 交叉 验证 为 例 , 写 下 以 
下 程序 来 产生 10 个 下 标 集 (包括 输入 数据 ): 
w=read.table("Dermatology1.txt",header=T) # 输 入 数据 
w[L,35]j=factor(w[ ,35] ) 
n=nrow(w) ;T=length(table(w[,35]));2=10 
#. 上 [ 甸 n 为 样本 量 ,T 为 因 变量 类 别 数 ,2 为 折 数 
d=1:n;dd=l]ist(); e=names (table (w$V35)) 
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for(i in 1:T)dd[[i]]=da[w$V35==e[i]] # 每 个 dda[[i]] 是 i 类 下 标 集 
# 下 向 每 个 Kk[i] 是 i 类 中 每 折 的 数目 : 
kk=NULL :for(i in 1:T)kk=c (kk,round(length(dd[[i]])/2Z)) 
set.seed(111) ;yy=list (NULL ,NULL , NULL ,NULL ,NULL , NULL) 

for (i in 1:T){xx=list() ;uu=dd[[i]j]: 

for (j in 1:9) { xx[[j]]=sample(uu,kk[i]) 

uu=setdiff (uu,xx[[j]])};xx[[10]]=uu 
for(k in 1:10)yy[[i]][[k]]=xx[ [kx]]} 
mm=]ist (NULL ,NULL ,NULL ,NULL ,NULL ,NULL ,NULL ; NULL , NULL, NULL) 
for(i in 1:2)for(j in 1:T)mm[[i]]=c (mm[[i]],yy[[j]][[i]]) 
#mm[[i]] 是 第 i 折 的 测试 集 下 标 集合 
利用 了 上 面 输 出 的 下 标 集合 利用 线性 判别 分 析 ( 对 于 其 他 模型 也 类 似 ) 对 皮肤 病 数 
据 的 V35 做 预测 的 10 折 交叉 验证 的 代码 : 

library (MASS) ;E1=rep(0,Z) ;for(i in 1:2){m=mm[ [i]]: 
ni=length(m) ;a=lda(V35™~. ,w[-m,]) 
El1[i]=sum(w[m,35] !=predict(a,w[m,])$class)/n1i}:mean(F1) 


3. 和 列 联 表 有 关 的 R 软 件 程序 
(a) 二 维 表 (考虑 例 7.8 的 数据 HEcolor.txt) 


w=read.table("HEcolor.txt",header=T) # 输 入 数据 

wl=xtabs (Freq Hair+Eye,w) # 然 后 建立 头发 颜色 和 了 眼睛 颜色 的 二 维 表 : 
chisq.test(wl)  ”# 对 两 变量 相关 做 卡 方 检验 

fisher.test(w1) # 做 Fisher 精 确 检 验 ( 对 这 个 问题 不 推荐 因为 数据 量 太 大 ) 


(b) 高 维 列 联 表 的 各 种 独立 性 检验 (考虑 例 7.8 数 据 , 这 里 义 ,Y, 4 代表 头发 颜色 ， 
眼睛 颜色 和 性 别 三 个 变量 ) 
读 入 数据 :w=read.table("HEColor.txt",header=T) ;x=xtabs (Freq~ . ,Ww) 
模型 记号 零 假 设 及 语句 
hline (X,Y 2Z) | 和 到 GZ 互相 独立 a=loglin(x,list (1,2,3)) 
(XY., 2) (XI) 与 G 独 也 a=loglin(x,list(1:2,3)) 
( 
( 

















(X,Y2) X 和 (7 2) 独 立 a=loglin (x,list(1,2:3)) 
(XZ,Y) Y 和 (六 ,2Z) 独 立 a=loglin (x,list(2,c(1,3))) 
(XZ, XY) 给 定 X 时 , YY 和 独立 a=loglin(x,list(1:2,c(1,3))) 
(XY,Y2) 给 定 了 时 , 和 2 独立 | a=loglin(x,list(1:2,2:3)) 
(XZ,Y2) 给 定 Z 时 , X 和 YY 独立 | a=loglin(x,list(c(1,3),2:3)) 





相应 的 量 (如 yp 值 ) 可 以 由 下 面 的 语句 得 到 
e 自由 度 (d.f): a$df 
e 似 然 比 检验 统计 量 T 的 值 : a$1rt 
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。 似 然 比 检验 的 p 值 : pchisq(a$lrt ,a$df ,low=F) 
。 Pearson 检验 统计 量 了 的 值 : a$pear 
e。 Pearson 检验 的 p 值 : pchisq(a$pear ,a$df ,1ow=F) 


(c) (多 项 分 布 ) 对 数 线性 模型 (考虑 例 7.8 的 数据 HEColor.txt) 


w=read.table("HEcolor.txt",header=T) # 输 入 数据 

wl=xtabs(Freq~ . ,w) # 然 后 建 三 维 表 : 

library (MASS); a=loglm(Freq~Hair*Eye+Sex,W)# 主 效应 和 一 个 混合 效应 
summary (a) ; anova(a) ;a$para # 系 数 


输入 数据 :w=read.table ("HEColor .txt'",header=T) ;x=xtabs (Freq~ . ,w) 用 
下 面 语句 拟 合 (多 项 分 布 ) 对 数 线性 模型 (只 有 主 效应 ): 
(d) Poisson 对 数 线性 模型 (考虑 数据 acc2.txt) 


m=read.table("acc2.txt",header=T) # 输 入 数据 

m$Machine=factor (m$Machine); m$Person=factor(m$Person) 
a=glm(Incidents“Time+Machine+Person,family="poisson" ,data=m). 
summary (a) 


7.7 习题 


1. 利用 例 7.2 数 据 (artif2.txt), 把 y 作 为 因 变 量 , 仅 把 x 作为 自 变 量 进行 回归 , 画 
出 xz, y 散 点 图 及 回归 直线 , 结果 如 何 , 请 讨论 . 


. 利用 例 7.2 数 据 (artif2.txt), 把 y 作 为 因 变量 , 仅 把 vw 作 为 自 变 量 进行 回归 , 画 
出 z,y 敬 点 图 及 回归 直线 , 结果 如 何 , 请 讨论 . 


3. 利用 例 7.2 数 据 (artif2.txt), 把 y 作 为 因 变 量 , 把 v 和 7z 作 为 自 变 量 , 不 考虑 交互 作 
用 进行 回归 , 画 出 x, y 散 点 图 及 回归 直线 , 结果 如 何 , 请 讨论 . 


4. 数据 logi.txt 是 200 个 不 同年 龄 和 性 别 的 人 对 茶 项 服务 产品 的 认可 的 数据 . 这 里 
年 龄 是 连续 变量 , 性 别 是 有 男 和 女 (分 别 用 1 和 0 表示 ) 两 个 水 平 的 定性 变量 , 而 
变量 观点 则 为 包含 认可 (用 1 表示 ) 和 不 认可 (用 0 表示 ) 两 个 水 平 的 定性 变量 .人 
们 想 要 知道 的 是 究竟 年 龄 和 性 别 对 观点 有 没有 影响 , 有 什么 样 的 影响 , 请 用 本 
章 介绍 过 的 模型 表示 出 这 个 关系 . 


5. (数据 logi.txt) 把 性 别 作为 因 变量 , 把 年 龄 和 观点 作为 自 变 量 , 进行 logistic 回 归 ， 
解释 结果 . : 


6. 利用 例 7.5, 7.6, 7.7 数 据 , 做 各 种 方法 的 交叉 验证 (重复 产生 7.4.6 节 结果 的 各 种 
运算 ). 


[DM 
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(数据 :diabetes.scale.txt) 目 标 : 按照 第 一 - 列 的 变量 ( 因 变量 )， 利用 其 他 变量 (上 自 


变量 ) 分 类 , 做 交叉 验证 . 


(数据 :svmguide2.txt) 目 标 : 按照 第 一 列 的 变量 ( 因 变 量 )， 利用 其 他 变量 ( 自 变 


量 ) 分 类 , 做 交叉 验证 . 


(数据 :bodyfat.txt) 目 标 : 按照 第 一 列 的 变量 ( 因 变 量 ), 利用 其 他 变量 ( 自 变 


量 ) 回 归 , 做 交叉 验证 . 


， (数据 :fourclass.txt) 目 标 : 按照 第 一 列 的 变量 ( 因 变 量 )， 利用 其 他 变量 ( 自 变 


量 ) 分 类 , 做 交叉 验证 . 


. (数据 :mpg.txt) 目 标 : 按照 第 一 列 的 变量 ( 因 变 量 )， 利用 其 他 变量 ( 自 变 量 ) 回 归 


做 交叉 验证 . 


(数据 : glass.scale.txt) 目 标 : 按照 第 一 列 的 变量 ( 因 变量 ), 利用 其 他 变量 ( 目 变 


量 ) 分 类 , 做 交叉 验证 . 


. 想 出 你 自己 设计 的 一 个 二 维 列 联 表 , 总 频数 不 要 太 大 , 用 Fisher 精 确 检验 


和 X2 检 验 得 到 结论 . 你 的 零 假 设 是 什么 ? p 值 是 多 少 ? 可 人 盏 拒绝 ? 


. 解释 关于 列 联 表 的 多 项 分 布 对 数 线性 模型 和 Poisson 对 数 线性 模型 在 本 质 上 有 


什么 区 别 . 


. 数据 中 有 一 个 acc.txt, 它 类 似 于 acc2.txt, 只 不 过 没有 变量 Person( 其 他 的 也 不 


尽 相 同 ). 用 Poisson 线 性 模型 来 拟 合 它 . 
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第 八 章 ”多 元 分 析 


传统 的 多 元 分 析 包 括 主 成 分 分 析 、 因 子 分 析 、 聚 类 分 析 、 典 型 相关 分 析 、 判 
别 分 析 等 内 容 , 这 里 变量 大 都 要 求 为 有 多 元 正 态 分 布 . 后 来 , 一 些 教科 书 又 包括 了 
不 那么 “经 典 ” 的 对 应 分 析 . 除了 前 面 已 经 介绍 过 的 线性 判别 分 析 之 外 , 这 一 章 将 
介绍 所 有 的 这 些 方法 . 


8.1 寻找 多 个 变量 的 代表 : 主 成 分 分 析 和 因子 分 析 


假定 你 是 一 个 公司 的 财务 经 理 , 掌握 了 公司 的 所 有 主要 数据 , 比如 固定 资产 、 
流动 资金 、 每 一 笔 借 贷 的 数额 和 期 限 、 各 种 税 费 、 工 资 支出 、 原 料 消耗 、 产 值 、 
利润 、 折 旧 、 职 工人 数 、 职 工 的 分 工 和 教育 程度 等 等 . 如 果 让 你 向 有 关 方面 介绍 
公司 状况 , 你 能 够 把 这 些 指标 和 数字 都 原封 不 动 地 摆 出 去 吗 ? 当然 不 能 . 你 必须 要 
把 各 个 方面 进行 高 度 概括 , 用 一 两 个 指标 简单 明了 地 把 情况 说 清楚 . 其 实 , 每 个 人 
都 会 遇 到 有 很 多 变量 的 数据 ,比如 全 国 或 各 个 地 区 的 带 有 许多 经 济 和 社会 变量 的 
数据 , 各 个 学 校 的 研究 、 教 学 及 各 类 学 生 人 数 及 科研 经 费 等 各 种 变量 的 数据 等 等 . 
这 些 数据 的 共同 特点 是 变量 很 多 , 在 如 此 多 的 变量 之 中 , 有 很 多 是 相关 的 . 人们 希 
望 能 够 找 出 它们 的 少数 “代表 "来 对 它们 进行 描述 . 注意 , 如 果 各 个 变量 都 独立 , 主 
成 分 分 析 和 因子 分 析 是 没有 意义 的 . 

本 方 就 介绍 两 种 把 变量 维 数 降低 以 便于 描述 、 理 解 和 分 析 的 方法 : 主 成 分 分 
析 (principal component analysis) 和 因子 分 析 (factor analysis)， 实 际 上 
主 成 分 分 析 可 以 说 是 因子 分 析 的 一 个 特例 . 这 两 种 方法 的 目的 是 一 样 的 , 都 是 寻 
找 众多 相关 变量 的 少数 代表 , 这 些 代表 变量 , 又 称 为 成 分 或 因子 , 都 是 原先 变量 的 
线性 组 合 . 由 于 代表 变量 的 数目 显著 地 小 于 原先 变量 的 数目 , 数据 的 维 数 也 就 因而 
降低 了 . 

主 成 分 分 析 数 学 较 简 单 , 发 展 也 较 早 , 因子 分 析 需 要 的 数学 假定 较 多 , 理论 稍 
微 有 些 复杂 , 但 结果 可 能 会 比 主 成 分 分 析 更 理想 . 这 一 节 的 目地 是 找 出 这 些 由 线性 
组 合 而 形成 的 成 分 或 因子 , 并 且 试 图 解释 它们 的 意义 . 


8.1.1 主 成 分 分 析 


为 了 直观 地 描述 主 成 分 分 析 降 维 的 过 程 , 先 假定 原先 数据 只 是 两 个 变量 的 观 
测 值 , 即 二 维 数据 . 如 果 这 两 个 变量 分 别 由 横 轴 和 纵 轴 所 代表 , 每 个 观测 值 都 有 相 
应 于 这 两 个 坐标 轴 的 两 个 坐标 值 , 也 就 是 这 个 二 维 坐标 系 中 的 一 个 点 . 如 果 这 些 
数据 点 形成 一 个 有 椭圆 形 轮廓 的 点 阵 , 如 二 维 正 态 变量 的 情况 !,， 那么 这 个 椭圆 有 
一 个 长 轴 和 一 个 短 轴 , 称 为 主轴 . 主轴 之 间 是 互相 垂直 的 . 在 短 轴 方 向 上 , 数据 变 
化 较 小 , 在 长 轴 方向 上 , 数据 变化 较 大 . 如 果 两 个 坐标 轴 和 椭圆 的 长 短 轴 平 行 , 那 
么 代表 长 轴 的 变量 就 描述 了 数据 的 主要 变化 , 而 代表 短 轴 的 变量 就 描述 了 数据 的 

一般 地 说 , 只 有 在 变量 近似 地 服从 多 维 正 态 分 布 时 , 主 成 分 分 析 和 因子 分 析 的 效果 才 会 好 , 那 时 , 多 维 
数据 点 阵 形成 多 维 空间 的 椭 球 形状 . 
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但 是 , 坐标 轴 通 常 并 不 和 椭圆 的 长 短 轴 平 行 ， 因 此 , 需要 寻找 椭圆 的 长 短 轴 ， 
并 进行 变换 , 使 得 新 变量 和 椭圆 的 长 短 轴 平行 . 如 果 长 轴 变 量 代 表 了 数据 包含 的 
大 部 分 信息 , 就 用 该 变量 代替 原先 的 两 个 变量 ( 舍 去 次 要 的 短 轴 变量 ), 降 维 就 完成 
了 . 在 极端 的 情况 , 短 轴 如 果 退 化 成 一 点 , 那 只 用 长 轴 变 量 就 能 够 完全 解释 这 些 操 
的 变化 , 这 样 , 由 二 维 到 一 维 的 降 维 就 自然 完成 了 .图 8.1 是 一 个 这 样 的 椭圆 的 示 
意图 . 椭 贺 的 长 短 轴 相 差 得 越 大 , 降 维 也 越 有 道理 . 





8.1 二 维 空间 主 成 分 示意 图 . 


多 维 变量 的 情况 和 二 维 类 似 , 也 有 高 维 的 椭 球 , 只 不 过 无 法 直观 地 看 见 寺 了 . 
首先 把 高 维 椭 球 的 各 个 主轴 找 出 来 , 再 用 代表 大 多 数 数据 信息 的 最 长 的 几 个 轴 作 
为 新 变量 , 这 样 , 主 成 分 分 析 (principal component analysis) 就 基本 完成 了 . 
注意 , 和 二 维 情 况 类 似 , 高 维 椭 球 的 主轴 也 是 互相 垂直 的 . 这 些 互相 正 交 的 新 变量 
是 原先 变量 的 线性 组 合 , 叫做 主 成 分 (principal component). 

正如 二 维 椭圆 有 两 个 主轴 , 三 维 椭 球 有 三 个 主轴 一 样 , 有 几 个 变量 , 就 有 几 个 
主 成 分 . 当然 , 选择 越 少 的 主 成 分 , 降 维 就 越 好 . 什么 是 选择 的 标准 呢 ? 那 就 是 这 
些 被 选 的 主 成 分 所 代表 的 主轴 的 长 度 之 和 占 了 主轴 长 度 总 和 的 大 部 分 有 些 文献 
建议 , 所 选 的 主轴 总 长 度 占 所 有 主轴 长 度 之 和 的 大 约 85%( 也 有 的 说 80% 左 右 ) 即 
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可 . 其 实 , 这 只 是 一 个 大 体 的 说 法 , 具体 选 几 个 , 要 看 实际 情况 而 定 . 但 如 果 所 有 涉 
及 的 变量 都 不 那么 相关 , 就 很 难 降 维 !. 不 相关 的 变量 就 具有 自己 代表 自己 了 . 用 
统计 术语 来 说 , 上 述 椭 球 的 各 个 主轴 的 长 短 代表 了 该 方向 数据 的 方差 , 而 我 们 要 寻 
找 的 是 方 索 大 ( 即 数据 变化 大 ) 的 方向 . 

在 引进 主 成 分 分 析 之 前 , 先 看 下 面 的 例子 . 


例 8.1 WHO 数据 (who.txt) 这 是 162 个 国家 和 地 区 的 10 个 变量 组 成 的 数据 ， 
数据 摘自 世界 卫生 组 织 的 数据 .变量 情况 如 下 : xl: 青少年 生育 率 (%)、x2: 人 
均 国 民 收 入 , x3: 女 小 学 生 入 学 率 ( 兄 )、x4: 男 小 学 生 入 学 率 (%)、x5: 人 口 增长 
率 ( 允 )、x6: 城镇 人 口 比 率 (%)、x7: 年 龄 中 位 数 (%)、x8: 60 岁 以 上 比例 (%), x9: 
15 岁 以 下 比例 (%)、x10: 每 女性 生育 数 . 目前 的 问题 是 , 能 不 能 把 感 兴趣 的 10 个 
变量 用 一 两 个 综合 变量 来 表示 呢 ?” 这 一 两 个 综合 变量 包含 有 多 少 原 来 的 信息 呢 ? 
怎么 解释 它们 呢 ? 能 不 能 利用 找到 的 综合 变量 来 对 国家 和 地 区 排序 呢 ? 

这 一 类 数据 所 涉及 的 问题 可 以 推广 到 对 企业 , 对 学 校 进 行 分 析 、 排 序 、 判 别 
和 分 类 等 问题 . 这 些 在 后 面 章节 将 会 陆续 引进 . 下 面 首先 介绍 主 成 分 分 析 . 

例 8.1 的 数据 点 是 10 维 的 , 也 就 是 说 , 每 个 观测 值 是 10 维 空间 中 的 一 个 点 . 每 
一 维 代表 了 一 个 变量 . 如果 这 些 变量 有 些 相 关 , 则 可 以 把 它们 用 某 种 综合 变量 来 
代表 . 这 就 是 一 个 降 维 的 过 程 . 

如 何 找 主 成 分 呢 ? 数学 上 是 解数 据 相 关 阵 的 特征 值 问题 , 下 面 的 计算 就 是 求 
该 特征 值 的 解 . 对 例 8.1 数 据 进 行 主 成 分 分 析 , 通过 R 代 码 (包括 输入 数据 ) 


w=read.table('"who.txt",sep=",",header=T) 
b=eigen(cor(w) ) # 解 相关 阵 cor (w) 的 特征 值 问题 
data.frame(b$va,b$va/sum(b$va) ,cumsum(b$va) /sum(b$va)) 


得 到 下 面 的 输出 : 
主 成 分 “特征 值 ”特征 值 所 占 比例 “特征 值 所 占 累 积 比例 


1] 6.7190 0.6719 0.6719 

2 1.1536 0.1154 0.7873 

3 0.8835 0.0884 0.8756 

4 0.4674 0.0467 0.9223 

5 0.4299 0.0430 0.9653 
.6 0.1703 0.0170 0.9824 
7 0.1106 0.0111 0.9934 

8 0.0336 0.0034 0.9968 

9 0.0270 0.0027 0.9995 
10 0.0052 0.0005 1.0000 


:在 所 有 变量 都 正 交 的 情况 下 , 如 果 要 达到 一 些 文献 所 建议 的 85%% 主 轴 长 度 份额 , 则 必须 选取 85 允 的 主 
成 分 , 似乎 达到 目的 , 但 毫 无 意义 . 
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这 里 的 特征 值 就 是 这 里 的 10 个 主轴 长 度 (相应 方向 的 方差 ), 可 以 看 出 这 10 个 特征 
值 大 小 不 一 , 最 大 的 有 6.7190, 占 主轴 长 度 总 和 (或 所 有 特征 值 的 总 和 , 又 叫 总 方 
差 ) 的 67.19%, 第 二 大 特征 值 为 1.1536, 占 总 方差 的 11.54%. 头 两 个 主 成 分 的 特征 
值 累积 占 了 总 方差 的 78.73%, 后 面 的 特征 值 的 贡献 越 来 越 少 . 这 可 以 从 所 谓 基 上 崖 
碎 石 图 (Scree Plot, 图 8.2 左 图 ) 看 出 . 图 8.2 右 图 为 累积 特征 值 比例 . 由 这 些 图 表 可 
以 看 出 , 头 两 个 特征 值 的 确 占 了 特征 值 总 和 的 绝 大 部 分 . 因此 , 选 头 两 个 主 成 分 就 
可 以 了 . 巧 嵌 碎 石 图 的 名 字 意 味 着 如 果 头 一 两 个 成 分 代表 了 大 多 数 方差 , 那么 , 该 
图 开始 很 陡 , 其 他 分 量 就 像 悬 崖 落下 的 碎 石 一 样 基本 靠近 地 面 , 这 也 表示 了 选取 主 
成 分 的 一 个 原则 , 即 如 果 该 图 不 陡 , 那么 主 成 分 分 析 结 果 一 定 不 好 . 
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8.2 例 8.1 十 个 成 分 的 特征 值 的 点 图 : 悬崖 碎 石 图 ( 左 )， 累积 特征 值 比例 ( 右 ). 


图 8.2 是 由 下 面 代码 绘 的 : 


par (Cmfrow=c(1,2)) 

plot (b$va,type='"o",main="Scree Plot",xlab="Component Number", 
ylab="Eigen Value'") 

plot (cumsum(b$va)/sum(b$va) ,type="o", 
main="Cumulative Figen Value (Ratio)n ， 

xlab="Component Number", ylab="Cumulative Eigen Value (Ratio)') 


按 下 来 的 问题 是 怎么 解释 这 两 个 主 成 分 ， 前 面 说 过 主 成 分 是 原 数 据 十 个 
变量 的 线性 组 合 , 那么 是 怎么 样 的 组 合 呢 ? 可 以 通过 下 面 R 语 句 输出 所 谓 载荷 
表 (Component Matrix), 它 也 是 特征 向 量 , 只 不 过 是 单位 乘 以 相应 特征 值 的 
平方 根 , 因而 有 了 变量 和 成 分 的 相关 系数 的 意义 . 


(loadings=sweep(b$ve,2,sqrt(b$va) ,"*")) 
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载荷 表 ( 里 面 数字 为 相应 成 分 及 变量 之 间 的 相关 系数 ) 
成 分 

量 1 2 3 4 5 6 7 8 9 10 
xl 0.80 -0.06 0.01 -0.57 -0.14 0.14 -0.08 0.00 -0.00 0.00 
x2 | -0.72 0.31 -0.48 -0.08 0.31 0.21 0.09 0.00 0.01 0.00 
x3 | -0.74 -0.64 -0.16 -0.06 0.01 -0.00 0.02 -0.10 -0.08 0.00 
x4 | -0.71 -0.66 -0.18 -0.10 0.06 -0.06 -0.00 0.10 0.07 -0.00 
x5 0.80 0.00 -0.51 0.08 0.18 -0.10 -0.22 -0.03 0.02 0.00 
x6 | -0.66 0.28 -0.51 -0.04 -0.47 -0.10 0.03 0.00 -0.00 0.00 
x7 |-0.95 0.22 0.09 -0.11 0.09 -0.05 -0.10 0.03 -0.05 -0.05 
x8 | -0.86 0.24 0.19 -0.29 0.15 -0.20 0.01 -0.07 0.06 0.02 
x9 0.97 -0.13 -0.13 -0.02 -0.01 -0.03 0.15 -0.06 0.06 “-0.05 
xl0 | 0.92 0.07 -0.15 -0.16 0.17 -0.20 0.12 0.06 -0.08 0.01 


上 面 表 中 的 每 一 列 : 代 表 一 个 主 成 分 , 作为 原来 变量 线性 组 合 的 系数 (比例 ). 
比如 第 一 主 成 分 10 个 变量 的 线性 组 合 系数 为 0.80，--0.72，--0.74，--0.71，0.80， 
一 0.66， 一 0.95， 一 0.86，0.97，0.92. 如果 用 zi,…,7Zio 表 示 原 先 的 10 个 变量 ， 而 
用 ?7, …, Vio 表示 新 的 主 成 分 , 那么 ， 第 一 和 第 二 主 成 分 y; 和 w, 为 : 

Vy1 = 0.80z1 — 0.727x2 — 0.74x3 — 0.717x4 十 0.80z5 一 0.66zx6 — 0.95zx7 — 0.86x8g 十 0.97zg + 0.927x10 

Vy2 = 一 0.06z1 十 0.3172 一 0.6473 ~— 0.66zx4 十 0.00z5 十 0.2876 十 0.227x7 十 0.24xg — 0.13xg + 0.07x10 
这 些 系数 称 为 主 成 分 载荷 (loading)2, 它 表 示 主 成 分 和 原先 各 变量 的 线性 相关 系 
数 . 比如 上 面 第 一 主 成 分 表示 式 中 的 系数 为 0.80, 这 就 是 说 第 一 主 成 分 和 青 少 
年 生育 率 (xl)zi 的 相关 系数 为 0.80. 相关 系数 (绝对 值 ) 越 大 , 主 成 分 对 该 变量 的 代 
表 性 也 越 大 . 可 以 看 得 出 , 第 一 主 成 分 对 各 个 变量 解释 得 都 很 充分 . 而 最 后 的 几 个 
主 成 分 和 原先 的 变量 就 不 那么 相关 了 . 根据 上 面 的 公式 , 可 以 对 每 个 地 区 或 国家 
根据 各 个 变量 ( 那 10 个 原始 变量 的 值 ) 算 出 其 主 成 分 (比如 yj 和 yw;) 的 值 , 称 为 得 分 或 
者 记分 (score). 这 样 就 可 以 按照 这 些 主 成 分 的 大 小 对 各 个 国家 状况 进行 分 析 , 并 
利用 主 成 分 的 意义 来 解释 . 但 是 要 注意 的 是 , 利用 这 里 的 公式 在 计算 每 个 观测 值 
的 主 成 分 得 分 时 应 该 对 变量 zi,…:,zio 的 数据 列 加 以 标准 化 , 当然 , 计算 机 自动 会 
做 所 有 这 些 计 算 . 假定 第 ;个 变量 的 数据 列 为 x;;, 7 = 1,...,p, 那么 标准 化 的 数据 应 


Zr 一 -1 
5 
这 里 元 ;为 第 ? 列 数据 的 样本 均值 ,而 s; 为 其 样本 标准 差 . 这 样 , 对 于 这 个 例子 的 
第 i 个 观测 的 头 两 个 主 成 分 得 分 (score) 为 
yil = 0.8027 一 0.727ja 一 0.74733 ~ 0.71z% 十 0.80zri5 一 0.66z;6 ~ 0.95z17 一 0.867i8 十 0.97zio 十 0.92z710 
yi2 一 一 0.06zil + 0.31zi2 一 0.64zia 一 0.66zi4 十 0.00z 和 5 十 0.28z;6 + 0.227 入 十 0.247 扣 — 0.13z% 十 0.07z 六 
“这 里 的 列 向 量 分 别 是 数据 相关 阵 的 各 个 特征 值 所 相应 的 特征 向 量 (eigenvector). 这 里 的 向 量 不 是 单位 
向 量 ,而 是 单位 特征 向 量 乘 以 相应 特征 值 的 平方 根 ( 称 为 载荷 ). 载荷 为 对 应 的 主 成 分 和 原先 变量 的 相关 系 
数 . 有 些 文献 (及 软件 ) 就 用 原始 的 单位 特征 向 量 的 元 素 作为 相应 的 主 成 分 系数 , 也 称 为 载荷 , 结果 的 主 成 分 
和 这 里 的 差 一 个 大 小 等 于 相应 特征 值 平方 根 的 因子 . 这 种 区 别 对 于 分 析 结 果 不 会 造成 任何 不 同 . 
“单位 特征 向 量 也 被 会 称 为 载荷 , 但 仅仅 不 是 相关 系数 而 已 , 这 不 影响 其 他 分 析 . 
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男 外 , 在 不 同 软 件 中 或 不 同 的 计算 程序 中 , 对 每 个 变量 计算 的 得 分 列 向 量 可 能 
差 一 个 常数 . 

为 了 更 直观 地 解释 主 成 分 所 代表 的 意义 , 还 能 够 把 第 一 和 第 二 主 成 分 的 载 
何 氮 出 一 个 二 维 图 以 直观 地 显示 它们 如 何 解释 原来 的 变量 的 . 这 个 图 叫做 载 
荷 图 (loading plot， 图 8.3)， 该 图 右面 四 个 点 是 青少年 生育 率 (x1)、 人 口 增长 
率 (x5)、15 岁 以 下 比例 (x9)、 每 女性 生育 数 (x10) 四 个 点 , 它们 的 坐标 分 别 就 是 
上 面 表 中 头 两 列 的 相应 的 行 : x1l: (0.80,， 一 0.06), x5: (0.80，0.00), x9: (0.97， 
一 0.13), x10: (0.92, 0.07). 这 说 明 第 一 主 成 分 ( 横 坐 标 ) 和 这 些 变量 正 相关 , 即 第 一 - 
主 成 分 越 大 ( 正 的 值 大 ), 则 青少年 生育 率 (x1) 高 ,， 人口 增 长 率 (x5) 高 , 15 岁 以 下 比 
例 (x9) 大 , 每 女性 生育 数 (x10) 多 , 这 是 不 发 达 国 家 的 象征 . 而 图 的 左边 则 是 其 余 的 
六 个 变量 , 包括 人 均 国 民 收 入 (x2)、 女 小 学 生 入 学 率 (x3)、 男 小 学 生 入 学 率 (x4)、 
城镇 人 口 比 率 (x6)、 年 龄 中 位 数 (x7)、60 岁 以 上 人 口 比例 (x8), 第 一 主 成 分 和 这 
些 变量 负 相 关 , 即 第 一 主 成 分 小 ( 负 值 大 ), 则 人 均 国民 收入 (x2) 高 , 女 小 学 生 入 学 
率 (x3) 高 , 男 小 学 生 入 学 率 (x4) 高 , 城镇 人 口 比率 (x6) 高 , 年 龄 中 位 数 (x7) 高 , 60 岁 
以 上 人 口 比例 (x8) 高 , 这 是 发 达 国 家 的 象征 . 所 以 第 一 主 成 分 的 高 低 可 以 判断 国家 
的 发 达 程 度 , 也 就 是 说 , 第 一 主 成 分 正方 向 越 大 , 国家 综合 起 来 越 不 发 达 . 第 二 主 
成 分 只 代表 了 11.54% 的 信息 , 远 远 没有 第 一 主 成 分 (代表 67.19% 的 信息 ) 那 么 显著 ， 
但 第 二 主 成 分 的 大 小 , 反映 了 教育 状况 的 好 坏 , 因为 只 有 小 学 入 学 率 (x3 和 x4) 是 比 
较 相 关 的 变量 (相关 系数 绝对 值 在 0.6 附 近 的 仅 有 变量 ), 其 他 变量 和 第 二 主 成 分 相 
关 性 不 大 . 第 二 主 成 分 越 大 , 入 学 率 越 低 (因为 它 和 x3, x4 负 相关 ). 
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8.3 例 8.1 数 据 的 10 个 变量 的 头 两 个 主 成 分 的 载荷 图 , 显示 了 10 个 变量 和 这 两 个 主 成 分 的 线 
性 相关 关系 . 
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生成 图 8.3 的 代码 为 : 


plot(b$ve[,1:2] ,type="n" main='"Loading Plot", 
xlab="Component 1",ylab="Component 2") 
abline(h=0);abline(v=0) ;text(b$ve[,1:2] ,names(w)) 


要 看 各 个 国家 在 载荷 图 中 的 地 位 如 何 , 则 可 以 点 出 它们 的 得 分 (图 8.4), 前 面 
已 经 给 出 了 公式 , 用 R 代 码 算 并 点 出 图 来 要 简单 得 多 : 


wl=as .matrix(scale (w)) 
plot (wip*Ab$ve[,1:2] ,type="n",xlab="Comp 1",ylab='"Comp 2") 
text (wis*%b$ve[,1:2] ,row.names(w) ,cex=0.5) 


图 8.4 显 示 了 各 个 国家 的 状况 , 如 在 图 8.3 中 说 明 的 , 越 靠 近 右 边 的 国家 越 欠 发 
达 , 而 左边 的 则 发 达 . 这 个 图 也 印证 了 这 种 判断 . 当然 , 由 于 国家 太 多 , 可 能 看 不 清 
楚 , 读者 可 以 自己 生成 这 个 图 形 来 分 析 . 







Central African Republi 
Ang 


Eritrea 





Congo 
Switzerland 
本 Kuwait “Ohlere, cratic Republic of the Congo 


Gambia 











Oman 


Comp2 


Pakistan Solomon 1s 届 985a 






Ch 


Armenia 


UINea 








二 


lic 
a Bel Batemala 
Sn Lanbanmar Ma oe onmionddrBgncipe zambia 





CN Tajikista Madagascar 
United Republic of Tanzania 






Comp1 


图 8.4 例 8.1 数 据 的 各 个 国家 相应 于 头 两 个 主 成 分 的 得 分 . 


实际 上 ， 通 过 计算 表明 第 一 主 成 分 最 大 (从 大 到 小 ) 的 前 10 个 国 
家 为 : Niger( 尼 日 尔 )、Sierra Leone( 色 拉 里 昂 )、Burkina Faso( 布 基 纳 法 
索 )、Mali( 马 里 )、Democratic Republic of the Congo( 刚 果 共 和 国 )、 Chad( 乍 
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得 )、Angola( 安 哥 拉 )、Eritrea (厄立特里亚 )、Central African Republic( 中 
非 共 和 国 )、Timor-Leste( 东 帝 汶 ). 而 第 一 主 成 分 最 小 (从 小 到 大 ) 的 
前 10 个 国家 为 : Japan( 日 本)、Germany( 德 国 )、Italy( 意 大 利 )、Belgium( 比 
利 时 )、Luxembourg( 卢 森 堡 )、Greece( 希 腊 )、Sweden( 瑞 典 )、Denmark( 志 
麦 )、Norway (挪威 )、Netherlands( 荷 兰 )， 从 这 个 名 单 ,可 以 看 出 , 这 种 排名 和 
仅仅 用 国民 收入 一 项 的 排名 不 太一 样 . 

思考 一 下 : 


1.“ 弧 崖 碎 石 图 "形象 地 反映 了 选 主 成 分 的 标准 , 它 意 味 着 头 一 两 个 主 成 分 很 高 ， 
而 后 面 主 成 分 就 应 该 像 从 悬崖 掉 下 的 碎 石 一 样 很 快 降下 来 . 如 果 该 图 不 很 陡 ， 
而 形 如 一 个 缓 斜坡 , 说 明 降 维 效果 不 好 . 不 要 为 了 凑 够 百分数 而 选取 肪 上 崖 下 面 
的 “ 碎 石 ”. 


. 对 互相 正 交 的 变量 进行 主 成 分 分 析 , 得 到 的 特征 值 均等 于 1, 这 意味 着 所 有 成 


分 同等 重要 . 
. 在 变量 多 的 时 候 , 有 时 不 易 解释 主 成 分 或 因子 


. 在 不 同 的 软件 或 程序 中 , 输出 的 载荷 矩阵 可 能 是 单位 特征 向 量 , 也 可 能 是 单位 
特征 向 量 乘 以 相应 特征 值 的 平方 根 , 而 且 也 可 能 差 一 个 正 负 符 号 ,它们 对 于 各 
种 分 析 没 有 任何 影响 (最 多 在 载荷 图 中 上 下 或 左右 调换 位 子 ) 但 只 有 后 者 才 代 
表 主 成 分 和 相应 变量 的 相关 系数 . 


下 面 介绍 的 因子 分 析 实 际 上 是 主 成 分 分 析 的 推广 . 它 和 主 成 分 分 析 的 目的 一 
致 , 但 分 析 更 精密 , 结果 更 有 解释 性 . 


8.1.2 ”因子 分 析 


主 成 分 分 析 从 原理 上 是 寻找 椭 球 的 所 有 主轴 . 因此 , 原先 有 几 个 变量 , 就 有 
几 个 主 成 分 .而 因子 分 析 是 事先 确定 要 找 多 少 个 成 分 (component), 这 里 称 为 因 
子 (factor)( 从 数学 模型 本 身 来 说 必须 事先 确定 因子 个 数 , 但 使 用 统计 软件 时 , 或 
者 使 用 者 事先 确定 因子 个 数 , 或 者 软件 自动 把 符合 某 默认 标准 的 因子 都 选 入 ). 变 
量 和 因子 个 数 的 不 同 使 得 不 仅 在 数学 模型 上 , 而 且 在 计算 方法 上 , 因子 分 析 和 主 成 
分 分 析 有 不 少 区 别 . 因子 分 析 的 计算 要 复杂 一 些 . 根据 因子 分 析 模 型 的 特点 , 它 还 
多 一 道 工 序 : 因子 旋转 (factor rotation), 这 个 步骤 可 能 会 使 结果 更 加 满意 当 
然 , 对 于 计算 机 来 说 , 因子 分 析 并 不 比 主 成 分 分 析 多 费 多 少时 间 ( 可 能 多 一 两 个 选 
项 罢了 ). 和 主 成 分 分 析 类 似 , 也 可 以 根据 相应 特征 值 大 小 来 选择 因子 的 个 数 并 展 
示 初 始 的 碎 石 图 . 选择 因子 的 标准 也 类 似 . 在 输出 的 结果 中 , 因子 分 析 也 有 因子 载 
荷 (factor loading) 的 概念 , 代表 了 因子 和 原先 变量 的 相关 系数 . 它 也 给 出 了 二 
维 载荷 图 , 其 解释 和 主 成 分 分 析 的 载荷 图 类 似 . 

还 是 以 例 8.1 为 例 来 看 如 何 得 到 因子 分 析 的 结果 . 利用 得 到 下 面包 括 输 入 数据 
的 R 代 码 (注意 这 里 选项 中 标明 只 要 2 个 因子 ): 
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w=read.table("who.txt",sep=",",header=T) 


a=factanal (Ww,2,scores = 'regression'");a$loadings 


用 因子 (成 分 ) 玉 和 所 来 表示 原来 变量 的 关系 (这 些 数字 也 称 为 载荷 , ) 


Factorl Factor2 
Xl -0.6604421 -0.3320026 
X2 0.6897585 0.2105372 
x3 0.3175013 0.9456340 
xX4 0.2964161 0.9204082 
x5 -0.73i11456 -0.3061111 
x6 0.5654772 0.2217057 
XT7 0.9621764 0.2633326 
X8 0.9189977 0.1949305 
xX9 -0.9212964 -0.3297795 
X10 ~0.7497948 -0.4757015 

这 个 表 说 明 10 个 变量 和 因子 的 关系 . 为 简单 记 , 用 zi, ..., zio 来 表示 那 10 个 变 

量 . 这 样 因 子 帮 和 fs 与 这 些 原 变 量 之 间 的 关系 是 (注意 , 和 主 成 分 分 析 不 同 , 这 里 


把 成 分 (因子 ) 写 在 方程 的 右边 , 把 原 变量 写 在 左边 , 但 相应 的 系数 还 是 主 成 分 和 各 
人 也 称 为 因子 载荷 ): 
= —0.6604421f, — 0.3320026 户 
0.6897585 fi + 0.2105372 户 
= 0.3175013 户 十 0.9456340 户 
0.2964161f1 + 0.9204082 户 
-0.7311456 方 — 0.3061111 户 
zo= 0 5654772 广 + 0.2217057 户 
= 0.9621764 户 + 0.2633326 户 
0.9189977 户 十 0.1949305 户 
一 0.9212964 户 — 0.3297795 所 
zl0 = 一 0.7497948 万 — 0.4757015 f 


这 里 的 系数 所 形成 的 散 点 图 (也 称 载荷 图 loading plot) 直 观 地 反映 了 这 个 特 
点 (图 8.5). 


计算 机 还 输出 了 这 两 个 因子 对 方差 的 贡献 : 各 自贡 献 分 别 为 51.4%，24.85， 
而 累积 贡献 为 76.2%. 


Factorl1 Factor2 


1 | 


| 


SS loadings 5.136 2.481 
Proportion Var 0.514 0.248 
Cumulative Var 0.514 0.762 


和 主 成 分 分 析 比 较 , 这 里 的 第 一 因子 和 与 教育 有 关 的 女 小 学 生 入 学 率 (x3)、 男 小 
学 生 入 学 率 (x4) 已 经 不 相关 (相关 系数 分 别 为 0.318 和 0.296, 但 和 其 他 变量 的 相关 
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Loading Piot 








t 
-0.4 -0.2 0.0 0.2 0.4 0.6 08 1.0 
| 





-0.5 0.0 0.5 1.0 


Factor 1 


图 8.5 ”和 松 8.1 数 据 的 头 两 个 因子 载荷 图 . 它 和 图 8.3 的 区 别 为 把 与 教育 程度 有 关 的 两 个 变量 完 
全 从 第 一 因子 分 离 , 仅仅 被 第 二 因子 代表 . . 


性 都 大 于 或 接近 0.6, 因此 , 第 一 因子 还 是 描述 关于 贫 富 、 发 达 与 不 发 达 的 特征 , 与 
主 成 分 分 析 载 荷 图 相反 , 越 靠 右 ( 正 的 越 大 ) 的 国家 越发 达 , 左边 而 值 越 小 ( 负 的 越 
大 ) 的 国家 越 不 发 达 . 而 第 二 因子 和 女 小 学 生 入 学 率 (x3) 与 男 小 学 生 入 学 率 (x4) 很 
正 相 关 , 相关 系数 分 别 为 0.946 和 0.920, 也 和 生育 率 (x1) 有 点 负 相 关 , 因此 , 第 二 因 
子 主要 描述 教育 普及 程度 . 第 一 因子 可 以 起 名 为 发 达 程 度 因子 , 第 二 因子 可 以 起 名 
为 教育 因子 . 从 这 个 例子 可 以 看 出 , 因子 分 析 的 结果 比 主 成 分 分 析 解 释 性 更 强 . 它 
把 不 同性 质 的 变量 区 分 得 更 清楚 . 计算 机 输出 中 还 有 每 个 观测 值 在 两 个 因子 下 的 
因子 得 分 (score), 即 对 于 162 个 国家 (n = 162) 都 算出 两 个 得 分 (i = 1,2) 

fir = Bazig t+ Biprpk, i=1,2, p=10, k=1,...,n. 


根据 这 些 得 分 , 可 以 画 出 类 似 于 图 8.4 那 样 的 得 分 图 (图 8.6). 这 里 的 因子 得 分 是 用 
回归 得 到 的 (在 前 面 因子 分 析 代 码 中 标明 的 选项 ). 


和 图 8.4 类 似 , 由 于 国家 很 多 , 有 的 名 字 很 长 , 可 能 从 图 上 看 不 清 , 请 读者 自己 
重新 产生 这 张 图 来 分 析 . 图 8.6 是 由 下 面 代码 画 出 的 : 


plot(a$scores,type="n" ,xlab="Factor 1",ylab="Factor 2") 
text (a$scores ,row.names (Ww) ,cex=0 .5) 


通过 计算 表明 , 第 一 主因 子 最 大 (从 大 到 小 ) 的 前 10 个 国家 为 : Japan( 日 
本 )、Italy( 意 大 利 )、Germany( 德 国 )、Croatia( 克 罗 地 亚 )、Bulgaria( 保 
加 利 亚 )、Slovenia( 斯 洛 文 尼 亚 )、Switzerland( 瑞 士 )、Latvia( 拉 脱 维 
亚 )、Belgium( 比 利 时 )、Finland( 芬 兰 ). 而 第 一 主因 子 最 小 (从 小 到 大 ) 的 前 10 个 
国家 为 : Malawi( 马 拉 维 )、Zambia( 赞 比 亚 )、United Republic of Tanzania( 坦 
桑 尼 亚 共 和 国 )、Madagascar( 马 达 加 斯 加 )、Guatemala( 和 危 地 与 拉 )、S$ao 
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8.6” 例 8.1 数 据 的 各 个 国家 相应 于 头 两 个 因子 的 得 分 


Tome and Principe( 圣 多 美和 普 林 西 比 )、Burundi( 布 隆 迪 )、Honduras( 洪 都 拉 
斯 )、Rwanda( 卢 旺 达 )、Tajikistan( 塔 吉 克 斯 坦 ). 这 个 名 单 和 主 成 分 分 析 的 第 一 
主 成 分 排名 不 尽 相 同 , 这 是 各 个 成 分 和 诸 变 量 的 相关 (因而 代表 性 ) 与 因子 和 诸 变 
量 的 相关 (因而 代表 性 ) 不 一 样 所 致 


思考 一 下 : 
. 主 成 分 分 析 和 因子 分 析 只 能 对 互相 相关 的 数量 变量 进行 降 维 . 
. 如 果 变 量 没有 近似 的 多 维 正 态 分 布 , 降 维 可 能 不 理想 . 


. 变量 的 选择 很 重要 , 没有 选 入 的 变量 , 绝对 不 会 被 主 成 分 或 因子 所 代表 . 


. 国 了 分 析 载 有 和 得 分 的 计算 方法 很 多 , 旋转 方法 也 很 多 (这 里 用 的 是 “最 大 方差 
法 "), 因此 不 同 软件 、 不 同 函数 及 不 同 选 项 算出 来 的 结果 不 会 完全 相同 . 
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8.1.3 因子 分 析 和 主 成 分 分 析 的 一 些 注 意 事项 


可 以 看 出 , 因子 分 析 和 主 成 分 分 析 都 依赖 于 原始 变量 , 也 只 能 反映 原始 变量 的 
信息 . 所 以 原始 变量 的 选择 很 重要 , 一 定 要 符合 进行 分 析 所 要 达到 的 目标 , 不 能 夹 
末 定 不 相关 的 变量 . z 

另外 , 如 果 原 始 变 量 基本 上 互相 独立 , 那么 降 维 就 可 能 失败 , 这 是 因为 很 难 把 
很 多 独立 变量 用 少数 综合 的 变量 概括 . 数据 越 相 关 , 降 维 效果 就 越 好 . 那些 选 出 的 
成 分 或 因子 代表 了 一 些 相关 的 信息 (从 相关 性 和 线性 组 合 的 形式 可 以 看 出 来 ). 根 
据 这 些 信息 可 以 帮助 给 这 些 成 分 或 因子 起 合适 的 名 字 , 但 并 不 总 是 可 以 给 出 满意 
的 名 字 . 

在 得 到 分 析 的 结果 时 , 并 不 一 定 会 都 得 到 如 例 8.1 那 样 容 易 解释 的 清楚 的 结果 . 
这 与 问题 的 性 质 、 选 取 的 原始 变量 以 及 数据 的 质量 等 都 有 关系 . 没有 一 个 方法 是 
万 能 的 . 一 个 完美 的 世界 就 是 由 无 数 不 完 美的 事物 组 成 的 . 

在 用 因子 得 分 进行 排序 时 要 特别 小 心 , 特别 是 对 于 敏感 问题 . 由 于 原始 变量 不 
同 , 因子 的 选取 不 同 , 排序 结果 可 以 很 不 一 样 . 

有 人 把 主 成 分 分 析 的 特征 向 量 按照 特征 根 的 大 小 的 加 权 平 均 来 得 到 所 谓 “ 综 
合 指数 ”, 这 是 没有 道理 的 .因为 每 个 特征 向 量 乘 以 任何 实数 之 后 还 是 特征 向 量 ， 
都 可 以 是 主 成 分 分 析 问 题 的 解 , 不 同 软件 及 不 同 选 项 得 到 的 结果 并 不 一 样 . 即使 
采取 单位 特征 向 量 还 有 可 能 差 一 个 正 负 号 . 假定 数据 有 10 个 变量 , 可 以 得 到 10 个 
主 成 分 , 那么 , 考虑 到 符号 变化 的 所 有 可 能 , 从 该 数据 一 共 可 以 得 到 210 = 1024 种 
不 同 的 “综合 指数 ", 这 不 是 很 荒 订 的 事情 吗 ? 此 外 , 主 成 分 是 互相 正 交 的 , 把 正 交 
变量 “加 权 平 均 " 更 是 不 可 思议 和 难以 解释 . 通常 , 得 到 综合 指数 的 目的 是 为 了 容 
易 解 释 , 但 是 一 个 主 成 分 的 大 小 往往 代表 多 层 意义 ( 正 负面 都 可 能 同时 存在 ). 假 
定 从 一 个 数据 的 者 干 变量 中 选 出 两 个 主 成 分 , 第 一 主 成 分 的 数值 大 ( 正 数 ) 代 表 效 
率 , 第 一 主 成 分 小 ( 负 值 大 ) 代 表 人 公平， 而 第 二 主 成 分 大 ( 正 数 ) 代 表 GDP 高 , 第 二 主 
成 分 小 ( 负 值 大 ) 代 表 腐 败 . 那么 无 论 如 何在 2? = 4 种 “综合 指数 ”中 选 哪 一 个 都 无 
法 解释 . 显然 这 四 种 选择 的 解释 为 1. 效率 高 、 不 公平 、GDP 高 、 腐 败 ; 2， 效 率 
低 、 公 平 、GDP 高 、 腐 败 ; 3. 效率 高 、 不 公平 、GDP 低 、 清 廉 ; 4. 效率 低 、 公 
平 、GDP 低 、 清 廉 . 难道 这 些 “ 综 合 指数 "的 选择 对 使 用 指数 的 人 方便 吗 ? 当然 ， 
人 们 可 以 用 任何 方法 编制 一 些 符 合 他 们 需要 的 “综合 指数 ", 但 不 要 以 主 成 份 分 析 
的 “科学 性 ”作为 理由 . 


8.2 ”把 对 象 分 类 : 聚 类 分 析 


俗语 说 , 物 以 类 聚 、 人 以 群 分 . 但 什么 是 分 类 的 根据 呢 ? 比如 , 要 想 把 中 国 的 
匡 分 成 者 干 类 , 就 有 很 多 种 分 类 法 , 可 以 按照 自然 条 件 来 分 , 比如 考虑 降水 、 土 
壤 、 植 被 、 日 照 、 湿 度 等 各 方面 . 也 可 以 考虑 收入 、 教 育 水 准 、 医 疗 条 件 、 基 础 
设施 等 指标 . 既 可 以 用 某 一 项 来 分 类 , 也 可 以 同时 考虑 多 项 指标 来 分 类 . 

对 于 一 个 数据 , 人 们 既 可 以 按照 观测 值 ( 行 ) 对 变量 (指标 ) 进 行 分 类 (相当 于 对 
数据 中 的 列 分 类 ), 也 可 以 按照 变量 ( 列 ) 对 观测 值 (事件 , 样品 ) 来 分 类 (相当 于 对 数 
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据 中 的 行 分 类 )， 比 如 利用 上 一 半 例 8.1 的 数据 就 可 以 对 国家 或 地 区 按照 经 济 、 人 
口 、 教 育 等 分 类 . 当然 , 并 不 一 定 事先 假定 有 多 少 类 , 完全 可 以 按照 数据 本 身 的 规 
律 来 分 类 ， 本 章 要 介绍 的 分 类 的 方法 称 为 案 类 分 析 (cluster analysis). 有 人 称 
按照 观测 值 对 变量 的 分 类 为 R 型 侵 类 , 而 称 按照 变量 对 观测 值 的 分 类 称 为 Q 型 聚 
类 . 其 实 无 所 谓 , 这 两 种 聚 类 在 数学 上 是 对 称 的 , 没有 什么 不 同 . 


例 8.2 交通 数据 (trans.txt) 该 数据 收集 了 一 些 国家 和 地 区 的 运 
输 数 据 变量 包括 机 场 数 有 目 (Airports)、 铁 路 公里 数 (Railways.km)、 
公路 公里 数 (Roadways.km)、 水 路 公里 数 (Waterways.km)、 商 船 
数 (Merchant.marine) 等 5 个 变量 . 而 国家 或 地 区 的 名 字 (Country.Area) 则 
在 行 名 字 中 . 现在 希望 利用 这 5 个 变量 来 分 类 . 如 果 按 照 这 5 个 指标 的 任何 一 项 来 
分 类 , 问题 就 很 简单 了 , 只 要 把 该 指标 相近 的 点 放 到 一 起 就 行 了 ， 如 何 同时 根据 
这 5 个 变量 来 育 类 呢 ? 其 想法 也 类 似 , 就 是 把 距离 近 的 放 到 一 起 . 这 样 就 出 现下 面 
要 提 到 的 距离 的 定义 和 度量 等 问题 . 该 数据 有 80 个 观测 值 . 


8.2.1 如 何 度量 距离 远近 ” 


对 例 8.2 数 据 的 最 简单 的 分 类 就 是 对 一 项 指标 (比如 机 场 数 ) 进 行 分 类 , 这 些 数 
值 在 直线 上 形成 许多 点 . 这 样 就 可 以 把 直线 上 距离 近 的 点 放 到 一 起 如果 再 加 上 
一 个 变量 , 比如 公路 里 程 , 那么 , 这 两 个 变量 就 形成 二 维 平面 上 的 一 些 点 , 也 可 以 
按照 平面 上 的 距离 远近 来 分 类 . 三 维 或 者 更 高 维 的 情况 也 是 类 似 , 只 不 过 三 维 以 
上 的 图 形 无 法 直观 地 画 出 来 而 已 . 

在 例 8.2 的 数据 中 , 每 个 观测 都 有 5 个 变量 值 . 这 就 是 5 维 空间 点 的 问题 了 . 按照 
远近 程度 来 谷类 需要 明确 两 个 概念 : 一 个 是 点 和 点 之 间 的 距离 , 一 个 是 类 和 类 之 
间 的 距离 ， 扣 间距 离 有 很 多 定义 方式 . 最 简单 的 是 熟知 的 欧 氏 距离 . 根据 距离 来 
决定 两 点 间 的 远近 是 最 自然 不 过 了 . 当然 还 有 一 些 和 距离 不 同 但 起 类 似 作用 的 概 
念 , 比如 相似 性 等 , 两 点 越 相 似 , 就 相当 于 距离 越 近 . 

由 一 个 点 组 成 的 类 是 最 基本 的 类 , 如 果 每 一 类 都 由 一 个 点 组 成 , 那么 点 间 的 距 
离 就 是 类 间距 离 . 但 是 如 果 某 一 类 包含 不 止 一 个 点 , 那么 就 要 确定 类 间距 离 . 类 间 
距离 是 基于 点 间距 离 定 义 的 , 它 也 有 许多 定义 的 方法 , 比如 两 类 之 间 最 近 点 之 间 的 
距离 可 以 作为 这 两 类 之 间 的 距离 , 也 可 以 用 两 类 中 最 远 点 之 间 的 距离 作为 这 两 类 
之 则 的 距离 , 当然 也 可 以 用 各 类 的 中 心 之 间 的 距离 来 作为 类 间距 离 . 在 计算 时 , 各 
种 点 间距 离 和 类 间距 离 的 选择 是 通过 统计 软件 的 选项 实现 的 . 不 同 的 选择 的 结果 
可 能 会 不 同 , 

有 了 上 面 的 点 间距 离 和 类 间距 离 的 概念 , 就 可 以 介绍 聚 类 的 方法 了 . 这 里 介 
绍 两 个 简单 的 方法 . 


8.2.2 ”事先 要 确定 分 多 少 类 : k 均 值 聚 类 


前 面 说 过 , 案 类 可 以 走 着 瞧 , 不 一 定 事先 确定 有 多 少 类 , 但 是 这 里 的 Kk 均 值 聚 
类 (k-means cluster, 也 叫 快 速 聚 类 ,quick cluster) 却 要 求 你 先 说 好 要 分 多 
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少 类 . 看 起 来 有 些 主观 .， 假 定 你 说 分 3 类 , 一 些 软件 还 给 你 选择 三 个 点 作为 “ 苔 类 
种 子 ” 的 机 会 , 如 果 你 不 选 , 那 软件 可 以 随机 为 你 选 种 子 , 计算 中 , 把 这 3 个 点 作为 
三 类 中 每 一 类 的 基石 . 然后 , 根据 与 这 三 个 点 的 距离 远近 , 把 所 有 点 分 成 三 类 . 再 
把 这 三 类 的 中 心 (均值 ) 作 为 新 的 基石 或 种 子 (原来 的 “种 子 " 就 没 用 了 ), 重新 按照 
距离 分 类 ， 如 此 达 代 下 去 , 直到 达到 停止 欠 代 的 要 求 (比如 , 各 类 最 后 变化 不 大 了 ， 
或 者 迭代 次 数 太 多 了 ) 如 果 客 观 上 各 类 很 容易 区 分 , 缀 类 种 子 的 选择 并 不 必 太 认 
真 , 它们 很 可 能 最 后 还 会 分 到 同一 类 中 . 但 如 果 各 类 区 别 不 明显 , 对 于 不 同 种 子 的 
选择 有 可 能 导致 聚 类 结果 不 同 , 因此 对 同一 个 数据 重复 计算 时 , 如 果 随 机 选 定 的 种 
子 不 一 样 , 结果 可 能 有 异 . 下 面 用 例 8.2 的 数据 来 描述 k 均 值 聚 类 . 

就 例 8.2 来 说 , 假定 要 把 这 些 国家 或 地 区 按照 5 个 关于 运输 的 变量 分 成 5 类 . 利 
用 及 语句 (包括 读 入 数据 ) 


WwW=ITead.table(Cntrans ,txt header=T) 
set.seed(44) ;a=kmeans(w,5) 


可 以 得 到 最 后 的 5 类 的 中 心 (在 5 维 空间 中 的 ) 坐 标 : 


Airports Railways.km Roadways.km Waterways.km Merchant .marine 


1 1692.0000 55984.67 2332954.67 62833.333 821 .000 
2 150.4746 3405 .39 73812.12 2779.593 225.661 
3 14947.0000 226612.00 6465799.00 41009.000 422 .000 
4 488.9000 14071.70 359264.40 7440.000 344.800 
5 631.4286 41401.14 883353.57 17624.714 381.571 


由 Ri 语句 for(i in 1:5)print(row.names(w) [a$clus==i]) 得 到 这 5 类 国 
家 为 (有 一 类 国家 太 多 , 略 去 ): 


类 别 国家 或 地 区 

1 Brazil, China, India 

2 59 个 国家 和 地 区 (名 称 略 去 ) 

3 United States 

4 Argertina, Bangladesh, Indonesia, Italy, Mexico, 


Poland, Sweden, Turkey, United Kingdom, Vietnam 
5 Australia, Canada, France, Germany, Japan, Russia, Spain 


“也 有 自动 寻求 最 优 k 值 的 聚 类 软件 , 这 里 不 予 介 绍 . 
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思考 一 下 : 

1. 根据 你 对 这 些 国 家 或 地 区 的 了 解 , 讨论 上 面 根据 运输 数据 聚 类 分 划 的 5 个 类 别 
有 没有 道理 . 

2. 如 果 把 例 8.2 数 据 的 变量 除 以 各 个 国家 和 和 地 区 的 人 口 ,， 结果 会 有 多 大 不 同 ? 

. 试 着 用 例 8.2 数 据 通 过 k 均 值 聚 类 , 把 观测 值 分 成 6 类 、?7 类 等 . 


. 关于 k 均 值 聚 类 究竟 应 该 分 成 多 少 类 有 很 多 讨论 , 产生 了 不 少 算法 ， 比 如, 把 类 
间距 离 的 平方 和 与 类 内 距离 平方 和 之 比 达到 最 大 为 标准 来 确定 k 值 . 对 于 下 面 
的 分 层 聚 类 , 也 有 类 似 的 问题 . 


心 < 


8.2.3 事先 不 用 确定 分 多 少 类 : 分 层 聚 类 


男 一 种 聚 类 称 为 分 层 率 类 或 系统 聚 类 (hierarchical cluster)， 开 始 时 , 有 
多 少 点 就 是 多 少 类 . 它 第 一 步 先 把 最 近 的 两 类 (点 ) 合 并 成 一 类 , 然后 再 把 剩 下 的 最 
近 的 两 类 合并 成 一 类 , 这 样 下 去 , 每 次 都 少 一 类 , 直到 最 后 只 有 一 大 类 为 止 . 显然 ， 
越 是 后 来 合并 的 类 , 距离 就 越 远 . 

继续 对 例 8.2 数 据 进 行 聚 类 分 析 . 为 了 演示 清楚 , 把 上 面 用 k 均 值 聚 类 得 到 的 包 
括 59 个 国家 那 一 类 从 数据 中 去 掉 , 对 剩 下 的 21 个 国家 进行 分 层 聚 类 , 用 及 语句 
wl=w[la$clus!=2,] ;hh=hclust (dist (wl), "ave") 
plot (hh,labels=row.names (wl1) ,Xlab="Country or Area'") 
得 到 图 8.7 的 结果 ( 育 类 树 形 图 ,dendrogram). 在 图 中 , 纵向 的 尺度 是 和 计算 出 
来 的 距离 成 比例 的 , 因此 , 可 以 直观 地 看 出 各 个 类 别 的 远近 . 


Cluster Dendrogram 
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8.7 例 8.2 数 据 用 分 层 聚 类 法 对 去 掉 一 些 观测 值 后 的 例 8.2 数 据 所 进行 的 分 层 聚 类 . 
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可 以 看 出 , 如 果 要 分 成 两 类 , 则 在 右边 只 有 两 条 纵 线 处 横向 “ 切 开 ”, 得 到 美国 
为 一 类 , 其 他 国家 为 男 一 类 , 如 果 要 分 成 三 类 , 则 在 只 有 三 条 纵 线 处 “ 切 开 ”, 得 到 
美国 为 一 类 , 印度 为 一 类 , 其 余 的 为 第 三 类 . 


例 8.3 大 城市 建筑 数据 (cities0.txt) 这 是 世界 一 些 大 城市 的 建筑 数据 , 包括 
人 口 、 面 积 (km”)、 高 层 建筑 数目 、 高 层 建 筑 的 点 数 (按照 每 个 建筑 的 层 数 确定 的 
该 城市 建筑 的 总 点 数 ). 根据 这 个 数据 , 用 分 层 聚 类 法 , 把 城市 分 类 , 包括 读 入 数据 
及 手工 选择 4 类 的 代码 如 下 : 


w=read.table("citiesO0.txt",sep=",",header=T) 
hh=hclust(dist(w), "ave'"); 
plot(hh,labels=row.names (w) ,cex=0.8);a=identify (hh) 





























树 形 图 显示 在 图 8.8 中 . 
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dist(w) 
hclust (*, "average'") 


图 8.8 用 分 层 聚 类 法 对 例 8.3 数 据 所 进行 的 分 层 聚 类 


这 里 尝试 把 这 些 城市 分 成 4 类 , 由 于 树 形 图 字 小 , 读者 可 自行 产生 这 个 图 形 . 
思考 一 下 : 
. 人 们 在 回归 中 经 常 发 现 数据 中 的 点 不 一 定 能 够 用 一 个 回归 模型 来 描述 , 这 时 ， 


可 以 用 品类 方法 把 数据 中 的 观测 值 分 成 一 些 子 群 , 再 分 别 进行 回归 , 或 者 把 类 
别 当 成 一 个 定性 变量 ,和 其 他 变量 一 起 进行 有 交互 作用 的 回归 . 


. 分 层 聚 类 中 对 点 间距 离 和 类 间距 离 的 不 同 选择 可 能 会 产生 不 同 的 聚 类 结果 . 
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8.2.4 聚 类 要 注意 的 问题 


显然 , 聚 尖 结果 主要 受 所 选择 的 变量 影响 . 如 果 去 掉 一 些 变量 , 或 者 增加 一 些 
变量 , 结果 会 很 不 同 . 相 比 之 下 , 聚 类 方法 的 选择 则 没有 变量 选择 那么 重要 . 因此 ， 
聚 类 之 前 一 定 要 目标 明确 .比方 说 , 如 果 在 例 8.2 的 国家 或 地 区 根据 交通 分 类 的 问 
题 再 加 上 涉及 地 理 、 经 济 及 人 口 等 信息 的 变量 , 得 到 的 结果 就 可 能 很 不 一 样 了 . 

为 外 束 分 成 多 少 类 来 说 , 也 要 有 道理 . 只 要 你 高 兴 , 无 论 从 k 均 值 聚 类 或 分 层 
聚 类 都 可 以 得 到 任何 可 能 数量 的 类 . 但 是 , 聚 类 的 目的 是 要 使 各 类 之 间 的 距离 尽 
可 能 地 远 , 而 类 中 点 之 间 的 距离 尽 可 能 地 近 , 而 且 分 类 结果 还 要 有 令 人 信服 的 解 
释 . 虽然 使 用 数学 可 以 定义 一 些 准则 . 但 最 主要 的 是 , 一 定 要 搞 清 聚 类 的 原始 动机 
和 目的 . 


8.3 ”两 组 变量 之 间 的 相关 : 典型 相关 分 析 


8.3.1 两 组 变量 的 相关 问题 


前 面 第 七 章 已 经 介绍 了 如 何 衡量 两 个 变量 之 间 是 否 相关 的 问题 , 这 是 用 简单 
的 公式 就 可 以 解决 的 问题 . 但 是 , 如 果 有 两 组 而 不 是 两 个 变量 , 如 何 能 够 表明 它们 
之 间 的 关系 呢 ? 下 面 看 一 个 例子 ( 例 8.4). 


例 8.4 电视 打分 数据 (tv.txt) 业内 人 士 和 观众 对 于 一 些 电视 节目 的 观点 有 什 
么 样 的 关系 昵 ? 下 面 数据 (tv.txt) 是 不 同 的 人 群 对 30 个 电视 节目 所 作 的 平均 评分 
观众 评分 来 自 低 学 历 (led)、 高 学 历 (hed) 和 网 络 (net) 调 查 三 种 , 它们 形成 第 一 组 
变量 , 而 业内 人 士 的 评分 来 自 包 括 演 员 和 导演 在 内 的 艺术 家 (arti)、 发 行 (com) 与 
业 a 门 主管 (man) 三 种 , 形成 第 二 组 变量 . 人 们 对 这 样 两 组 变量 之 间 的 关系 感 
到 兴趣 . 
对 电视 节 肯 的 打分 


No, | lerl hed net arti com inan || No, | led.l1 hed net arti com man 





如 果 对 这 6 个 变量 进行 两 两 相关 分 析 , 可 以 得 到 15 个 相关 系数 , 但 是 从 这 些 相 
关系 数 中 很 难得 到 这 两 组 (每 组 有 3 个 变量 ) 变 量 之 间 的 关系 . 如 果 能 把 每 一 组 变量 
用 一 个 变量 来 代表 , 那么 , 多 个 变量 与 多 个 变量 之 间 的 相关 就 可 以 化 为 两 个 变量 之 
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闻 的 相关 , 问题 也 或 简单 了 . 人 们 可 能 会 说 , 可 以 用 主 成 分 分 析 , 各 自 找到 各 自 的 
代表 , 再 看 它们 之 间 的 相关 不 就 行 了 ? 但 是 , 各 目的 主 成 分 只 能 代表 自己 , 很 可 能 
互相 不 相关 , 因此 , 一 定 要 找 出 可 以 联系 两 组 变量 的 代表 . 这 有 些 像 两 个 完全 不 同 
的 国家 之 间 的 谈判 , 谈判 代表 不 能 完全 只 代表 各 自 的 利益 , 而 要 能 够 在 两 国之 间 基 
于 它们 的 共同 点 来 建立 联系 . 

这 一 章 的 目的 就 是 为 人 们 感 兴 趣 的 两 组 变量 各 找到 一 个 (或 多 个 ) 有 综合 意义 
的 代表 变量 , 并 通过 研究 这 两 个 代表 变量 之 间 的 关系 来 考察 两 组 变量 之 间 的 关系 . 


8.3.2 ”典型 相关 分 析 


现在 要 为 每 一 组 变量 选取 一 个 综合 变量 作为 代表 , 而 一 组 变量 最 简单 的 综合 
形式 就 是 该 组 变量 的 线性 组 合 . 由 于 一 组 变量 可 以 有 无 数 种 线性 组 合 (线性 组 合 
由 相应 的 系数 确定 ), 因此 必须 找到 既 有 意义 又 可 以 确定 的 线性 组 合 . 典型 相关 分 
析 (canonical correlation analysis) 就 是 要 找到 这 两 组 变量 线性 组 合 的 系数 使 
得 这 两 个 由 线性 组 合生 成 的 变量 (和 其 他 线性 组 合 相 比 ) 之 间 的 相关 系数 最 大 . 
假定 两 组 原始 变量 为 X1,.…, XX, 和 YY,..., ,而 需要 寻找 用 来 代表 这 两 组 变量 
的 新 综合 变量 V 和 W 称 为 典型 变量 (canonical variable), 由 下 面 的 表达 式 给 
出 (其 中 系数 aj， (02, ...， QpARb1, bo2,..., bs 是 在 典型 相关 分 析 中 想 要 得 到 的 ): 
V =X 二 二 + QapX, 
W = biYi + .+ boY, 


那么 ,典型 相关 分 析 的 问题 就 在 于 要 寻找 系数 al a2,.…., a 及 b1,bo,.…, ba, 使 得 典 
型 变量 V 和 W 之 间 的 相关 关系 最 大 . 

这 种 相关 关系 是 用 典型 相关 系数 (canonical correlation coefficient) 来 
衡量 的 . 这 里 所 涉及 的 主要 的 数学 工具 还 是 矩阵 的 特征 值 和 特征 向 量 问题 ( 见 本 章 
后 面 的 公式 ), 而 所 得 的 特征 值 与 V 和 W 的 典型 相关 系数 有 直接 联系 . 由 于 特征 值 
问题 的 特点 , 实际 上 找到 的 是 多 组 典型 变量 (Vi, Wi), (Vz, W2),…, 其 中 Vi 和 Wi 最 
相关 , 而 从 和 全 2 次 之 等 等 , 而 且 VVW, ,V3,… 之 间 及 Wi, Wo, W3,... 之 间 互 不 相关 . 
这 样 又 出 现 了 选择 多 少 组 典型 变量 (VW) 的 问题 了 . 这 其 实 很 简单 ,就 像 在 主 成 
分 分 析 中 选 主 成 分 -一 样 , 只 要 选择 特征 值 累 积 总 贡献 占 主 要 部 分 的 那些 即 可 . 当 
然 , 软件 还 会 输出 一 些 检验 结果 , 于 是 只 要 选择 显著 的 那些 (V,W). 对 于 实际 问题 ， 
还 要 看 选取 的 (VW ) 是 否 有 意义 , 是 否 能 够 说 明 问题 才 行 至 于 得 到 (VW ) 系 数 
的 计算 , 则 很 简单 , 下 面 就 例 8.4 的 数据 进行 分 析 . 

下 面 利用 软件 包 CcCA! 实 行 这 两 组 变量 的 典型 相关 分 析 . 为 了 方便 把 前 三 个 变 
量 (led, hed, net) 的 一 组 命名 为 义 , 另 一 组 (arti, com, man) 命 名 为 Y. 进行 典型 相 
天 分 析 的 及 代码 如 下 : 
w=read.table('"tv.txt",header=T) 

X=w[,1:3] ;Y=w[,4:6] 
“TIgnacio Gonzélez and Sébastien Déjean (2009). CCA: Canonical correlation analysis. 及 package 
version 1.2, http://CRAN.R-project.org/package=COA. 
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library (CCA) 
(res=cc (X,Y)) 


由 于 两 组 中 变量 个 数 均 为 3, 因此 最 多 有 3 对 典型 相关 变量 . 一 般 来 说 如 采 两 
组 变量 个 数 不 一 样 , 比如 p > g, 则 典型 相关 变量 个 数 不 会 超过 gq. 输出 中 包括 了 
这 3 个 典型 相关 系数 : 0.9954405 0.9528195 0.6373226 (用 res$cor 来 显示 ) 这 3 对 
典型 相关 变量 为 各 自 组 中 变量 的 线性 组 合 , 可 用 代码 res$xcoef 和 res$ycoef 得 
到 其 系数 的 输出 ( 见 下 面 ). 注意 输出 中 X 组 的 典型 相关 变量 称 为 X, 而 Y 组 的 典型 
相关 变量 称 为 Y1, 在 其 他 软件 中 通常 也 是 把 一 组 称 为 “< 因 变 量 ”, 另 一 组 称 为 “上 自 变 
量 ”, 但 实际 上 它们 是 对 称 的 , 使 用 这 种 称谓 仅仅 是 为 了 方便 . 
$xcoef 

[,1] [ ,2] [,3] 

led -0.006674773 -0.03523045 0.054341051 
hed -0.031823575 0.01247933 0.005196029 
net 0.002099295 -0.01257811 -0.059215023 


$ycoef . 
[ ,1] [,2] [,3] 
arti -0.0286177622 0.03040737 0.06616270 
com -0.0008426431 -0.04568546 0.04865502 
man -0.0060022012 -0.01391857 -0.11696518 


还 可 以 从 此 得 到 各 个 观测 值 的 得 分 ( 即 xscores 和 yscores)， 用 人 
码 res$scores$xscores 和 res$scores$yscores 显 示 ( 由 于 太 长 , 这 里 不 显示 ). 
这 些 得 分 类 似 于 因子 分 析 中 的 因子 得 分 ， 为 各 个 观测 值 与 典型 变量 做 同样 的 线性 
组 合 所 得 下面 是 输出 中 的 由 典型 相关 变量 得 到 的 (X 组 的 )x 得 分 x-score 和 (Y 组 
的 )y 得 分 y-score 分 别 与 X 组 和 Y 组 原始 变量 ( 即 我 们 的 变量 代码 义 和 Y 组 ) 之 间 的 相 
关系 数 ( 产 生 四 个 表 , 对 应 于 四 种 相关 组 合 ): 
$scores$corr.X.xscores 

[,1] [ ,2] [,3] 

led -0.3325178 -0.9248417 0.18466107 
hed -0.9932899 0.1008356 -0.05663309 
net -0.3826908 -0.7530492 -0.53522395 


$scores$corr.Y.xscores 
[,1] [ ,2] [, 3] 
arti -0.9924136 0.06162569 0.02770038 
com -0.5684258 -0.77295364 0.08019883 
1 我 们 在 程序 中 把 一 组 命名 为 义 另 一 组 为 Y, 是 为 了 和 这 个 RR 函数 输出 一 致 . 无 论 我 们 选 不 选 名 字 , 或 者 
选择 什么 名 字 , 该 函数 输出 中 还 是 用 X 和 Y, 其 他 软件 也 类 似 , 比如 SPSS 在 输出 中 , 总 是 把 一 组 成 为 因 变 量 ， 
另 一 组 称 为 自 变量 . 
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man -0.9180073 -0.26087863 -0.17402564 


$scores$corr.X.yscores 

[,1] [ , 2] [,3] 
led -0.3310017 -0.88120725 0.11768867 
hed -0.9887610 0.09607813 -0.03609355 
net -0.3809460 -0.71751994 -0.34111031 


$scores$corr.Y.yscores 

[,1] [ , 2] [ ,3] 
arti -0.9969593 0.06467719 0.04346368 
com -0.5710294 -0.81122775 0.12583711 
man -0.9222121 -0.27379648 -0.27305738 


上 面 4 个 表 也 可 以 分 别 用 下 面 4 行 代码 获得 : 


res$scores$corr.X.xscores 
res$scores$corr.Y.xscores 
res$scores$corr.X.yscores 
res$scores$corr.Y.yscores 


如 何 解读 这 些 内 容 呢 ? 下 面 举例 说 明 : 


(1) 从 第 一 个 表 可 第 一 列 以 看 出 ;VW 和 高 学 历 的 人 (hed) 的 相关 系数 
为 一 0.9932899， 和 另外 两 个 不 相关 , 因此 VW 只 与 高 学 历 的 观点 有 关 : 从 第 
四 个 表 第 一 列 可 以 看 出 Wi 与 艺术 家 (arti) 及 主管 (man) 相 关 ( 相 关系 数 分 别 
为 一 0.9969593 和 一 0.9222121); 而 VW 和 Wi 为 最 相关 的 一 对 典型 变量 , 这 说 明 ， 
高 学 历 的 与 艺术 家 及 主管 观点 较 一 致 . 


(2) 从 第 一 个 表 第 二 列 可 以 看 出 , Ww 和 低 学 历 的 人 (led) 与 网 民 (net) 的 相关 系 
数 较 高 ,分别 为 -0.9248417 和 一 0.7530492， 因 此 态 与 低 学 历 和 网 民 的 观 
扩 有 闫 ; 从 第 四 个 表 第 二 列 可 以 看 出 Ws 只 与 发 行 (com) 相 关 ( 相 关系 数 
为 一 0.81122775); 而 WW 和 Wo 为 第 二 相关 的 一 对 典型 变量 , 这 说 明 , 低 学 历 
及 网 民 与 发 行 观点 较 一 致 


(3) 注意 ， 上 面 四 个 表 有 一 些 信息 有 些 重合 . 第 一 和 第 三 , 第 二 和 第 四 个 表 
有 些 类 似 ， 这 是 必然 的 ,以 第 二 表 为 例 , 第 二 表 第 一 列 显 示 了 VW 和 高 学 
历 (hed) 及 主管 (man) 很 相关 (相关 系数 分 别 为 -0.9924136 及 一 0.9180073)， 
这 和 上 面 (1) 的 结论 符合 . 


上 面 仅仅 列 出 了 统计 结果 , 到 底 如 何 从 对 传媒 的 理解 来 解释 这 些 结果 , 则 留 给 
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8.4” 列 联 表 行 变量 和 列 变量 的 关系 : 对 应 分 析 


在 因子 分 析 中 , 或 者 对 变量 ( 列 中 的 变量 ) 进 行 分 析 , 或 者 对 样品 (观测 值 或 行 
中 的 变量 ) 进 行 分 析 , 而 且 常 常 把 每 一 种 分 析 结 果 画 出 载荷 图 来 看 各 个 变量 之 间 的 
接近 程度 . 典型 相关 分 析 也 只 研究 列 中 两 组 变量 之 间 的 关系 . 然而 , 在 很 多 情况 下 ， 
所 关心 的 不 仅仅 是 行 变 量 自身 之 间或 列 变 量 自身 之 间 的 关系 , 而 是 者 干 行 变量 与 
若干 列 变量 之 间 的 关系 , 或 者 是 列 联 表 中 行 变量 和 列 变 量 的 各 个 水 平 之 间 的 相互 
关系 , 这 是 因子 分 析 等 方法 所 没有 涉及 的 . 这 里 介绍 的 用 图 来 描述 列 联 表 行列 变 
量 之 间 关 系 的 方法 , 称 为 对 应 分 析 (correspondence analysis) 方 法 . 

这 里 我 们 用 例 7.8 的 眼睛 和 头发 颜色 数据 (HEColor.txt) 中 的 头发 及 眼睛 颜色 
的 列 联 表 : 


Eye 
Hair Blue Brown Green Hazel 
Black 20 68 5 15 
Blond 94 7 16 10 
Brown 84 119 29 54 
Red 17 26 14 14 


人 们 可 以 对 这 个 列 联 表 进 行 前 面 所 说 的 Xx? 检 验 来 考察 行 变量 和 列 变 量 是 否 独立 . 
前 面 已 经 知道 这 个 检验 很 显著 : p 值 等 于 2.2 x 10 :8. 看 来 两 个 变量 的 确 不 独立 ， 
但 是 如 何 用 像 因子 分 析 的 载荷 图 那样 的 直观 方法 来 展示 这 两 个 变量 各 个 水 平 之 间 
的 关系 呢 ? 这 就 是 本 章 要 介绍 的 对 应 分 析 方 法 内 容 , 它 被 普 过 认为 是 探索 性 数据 
分 析 的 范畴 , 读者 只 要 能 够 会 用 数据 画 出 描述 性 的 点 图 , 并 能 够 理解 图 中 包含 的 信 
息 即 可 . 对 应 分 析 还 可 以 描述 多 于 二 维 的 数据 , 但 由 于 多 维 的 图 形 展示 不 那么 容易 
看 懂 , 这 里 不 予 介 绍 . 

在 对 应 分 析 中 . 可 以 找到 行 和 列 的 若干 有 意义 的 代表 , 分 别称 为 行 得 分 (row 
score) 和 列 得 分 (column score), 它们 互 为 对 方 的 加 权 均 值 , 而 且 它 们 之 间 有 不 
同 程度 的 相关 . 这 有 些 像 典型 相关 分 析 , 只 不 过 那里 是 两 组 列 变量 , 而 这 里 是 行 变 
量 和 列 变 量 . 这 些 概念 的 数学 意义 会 在 后 面 小 结 中 给 出 . 为 了 得 到 最 直观 的 登 加 
的 二 维 散 点 图 , 一 般 选 择 两 对 行列 得 分 (最 多 不 超过 三 维 ). 选择 的 维 数 的 代表 性 主 
要 看 它们 之 间 的 相关 程度 , 选取 相关 系数 (也 称 为 典型 相关 系数 ) 最 大 的 两 个 . 

下 面 通 过 对 例 7.8 数 据 的 计算 和 结果 分 析 来 介绍 对 应 分 析 . 

首先 看 例 7.8 数 据 的 对 应 分 析 的 一 个 主要 结果 , 即 图 8.9， 这 个 图 是 用 下 面 
的 及 代码 实现 的 (包括 数据 输入 ): 


W=Tread.table("HEcolor .txt" ,header=T) 
wl=xtabs (Freq Hair+Eye ,WwW) 

~ library (MASS) ; (a=corresp(wi, nf=2)) 
biplot(a,xlim=c(-1,1)) 
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注意 , 这 里 的 数学 主要 是 解 第 阵 的 特征 值 和 特征 向 量 问题 , 由 于 数学 上 , 一 个 特征 
向 量 乘 以 任何 正 负 实数 之 后 还 是 特征 向 量 , 所 以 各 个 软件 所 画 出 的 图 可 能 会 方 四 
相反 , 尺度 也 可 能 有 区 别 , 但 对 应 分 析 的 结果 , 即 各 个 变量 之 间 的 关系 是 不 会 因此 
而 显示 出 不 同 . 


8.9 





Eye:Green 


Hair:Red 


Eye:Hazel 





Hair:Browr 


Eye:Brown Eye:Blue Hair:Blon 





Hair:Black 





对 于 头发 颜色 和 了 眼睛 颜色 关系 ( 例 7.8) 的 对 应 分 析 后 图 . 


除了 图 8.9 之 外 ， 上 面 代 码 还 计算 并 输出 了 两 对 行列 变量 的 典型 相关 系数 (第 
一 个 为 0.4569165 为 第 二 个 的 3 倍 多 ) 以 及 行 得 分 和 列 积分 ,它们 是 图 7.9 中 8 个 乓 的 


坐标 : 


First canonical correlation(s): 0.4569165 0.1490859 


Hair 


Black 
Blond 
Brown 
Red 


scores: 
[,1] 
-1.1042772 
1.8282287 
-0.3244635 
-0.2834725 


Eye scores: 


Blue 


[,1] 
1.1980612 


Brown -1.0771283 


Green 
Hazel 


0.3540108 


-0.4652862 


[ ,2] 


.4409170 
.4667063 
.2191109 
.1440145 


[ ,2] 


.5564193 
.5924202 
.2741218 
.1227826 
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图 8.9 体 现 了 头发 颜色 和 眼睛 颜色 的 关系 , 主要 看 横 坐 标的 相对 位 置 ， 这 
是 因为 第 一 对 变量 的 典型 相关 系数 比 第 二 对 大 得 多 . 显然 , 金发 (Blond) 和 蓝 
眼 (Blue) 很 相关 , 黑头 发 (Black) 和 棕色 眼睛 (Brown) 较 接近 . 这 和 遗传 学 的 结论 是 
一 致 的 . 该 图 直观 地 展示 了 前 面 单独 用 x* 检 验 所 无 法 看 出 的 关系 . 


8.5 小结 


8.5.1 本 章 的 概括 和 公式 
1. 主 成 分 分 析 和 因子 分 析 


主 成 分 分 析 和 因子 分 析 的 主要 目的 就 是 用 少数 几 个 互相 正 交 的 变量 (因子 分 
析 也 可 以 选择 不 正 交 的 因子 ) 来 代表 原始 数据 中 较 多 的 相关 的 变量 . 这 些 新 变量 
叫做 因子 或 者 成 分 . 因子 分 析 和 和 主 成 分 分 析 会 产生 出 因子 载 稀 和 因子 得 分 ,因子 
载荷 代表 了 每 个 因子 (成 分 ) 与 原先 每 个 变量 的 线性 相关 系数 , 可 以 用 之 对 因子 (成 
分 ) 进 行 解释 (甚至 命名 ). 因子 得 分 用 原来 变量 的 线性 组 合 来 表示 每 个 因子 . 在 主 
成 分 分 析 中 , 选择 成 分 的 标准 是 根据 各 个 成 分 方差 大 小 来 决定 的 , 方差 就 是 数据 
相关 阵 的 特征 值 , 对 应 于 数据 相关 阵 的 特征 向 量 一 般 则 称 为 载 答 , 但 代表 成 分 和 变 
量 之 间 相 关系 数 的 载荷 在 数值 上 等 于 该 特征 值 的 平方 根 乘 以 与 之 对 应 的 单位 特征 
回 量 . 如 果 所 选 成 分 的 累积 方差 和 总 方 兰 之 比 很 显著 , 那么 就 不 再 选 更 多 的 成 分 
了 . 在 因子 分 析 中 , 也 可 以 按照 主 成 分 分 析 选 成 分 的 方法 来 选择 因子 , 但 也 有 其 他 
方法 . 

按照 数学 原理 , 主 成 分 为 数据 相关 阵 的 特征 辐 量 , 而 每 个 成 分 的 方差 为 相应 的 
特征 值 . 记 特 征 向 量 为 a; = (ai ,aip) (假定 数据 有 p 个 变量 ), 而 相应 的 特征 值 
记 为 Ai > 和 2 > … > 入, 则 主 成 分 分 析 的 成 分 和 原来 变量 z; 之 间 的 关系 为 : 

Yi 三 Q1121 十 Qi272 十 十 QipZp 


V2 = Q2121 十 Q2202 十 … 十 Qo2pTp 


yp = Qpl7Z1 十 Qp272 + 十 QppZp 


一 般 来 说 , 软件 输出 特征 问 量 为 单位 向 量 , 也 有 的 输出 是 单位 同 量 乘 上 相应 特征 
值 的 平方 根 VA;. 如 果 a; 是 单位 特征 向 量 乘 了 VA 之 后 的 向 量 , 那么 , ai 为 第 ?个 成 
分 y; 和 第 ;个 原先 的 变量 zj 之 间 的 线性 相关 系数 . 无 论 输出 的 是 什么 , 由 于 特征 癌 
量 乘 以 一 个 常数 (无 论 正 负 ) 都 还 是 特征 辣 量 , 所 以 , 后 续 分 析 除 了 是 否 是 相关 系 
数 之 外 不 会 由 于 特征 问 量 差 个 常数 因子 而 有 所 区 别 , 而 且 , 特征 疝 量 习 惯 上 被 称 
为 载 傈 (无 论 是 否 是 相关 系数 ). 头 两 个 主 成 分 的 载荷 图 就 是 下 面 坐 标的 点 组 成 的 : 
(a11, Q21), (Q12; Q22),..., (G1p, Q2»p). 

因子 分 析 的 因子 此 和 原来 变量 x; 之 间 的 模型 和 关系 (假定 原先 有 p 个 变量 及 需 
要 求 m 个 因子 , m < p). 因子 分 析 的 理论 模型 为 

Zi 一 人 三 all 亡 十 alio 户 十 十 aimj 
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Za — HH = Qfit a22fo tt Qom fm 


Tp 一 人 三 apfit apfs tt Apm fm 


这 里 的 ij 为 第 i 个 变量 x; 和 和 第) 个 因子 fj 之 间 的 线性 相关 系数 , 也 称 为 载荷 . 由 于 这 
个 模型 复杂 , 理论 分 析 也 复杂 . 这 里 不 做 详细 讨论 . 头 两 个 因子 的 载荷 图 就 是 下 面 
坐标 的 点 组 成 的 : (Q11) Q12), (aa2l， Q22)， … (Qp1, Qp2). > ;1 aij 称 为 共性 方差 (也 
称 公 共 方 差 或 变量 共同 度 , common variance, communalities). 
从 数据 经 过 因子 分 析 得 到 的 因子 得 分 函数 为 : 
hi = buridt iro tt PipTy 
f2 = baixi + Por2 tt PopTy 


fm 一 Cn1Z1 十 Dm2T2 十 … 十 DmpTp 


由 于 每 个 观测 值 都 有 p 个 数 : x1 ,722,.…, zp, 所 以 可 以 按照 因子 得 分 函数 算出 所 有 观 
测 值 的 因子 得 分 . 


2. 聚 类 分 析 


本 章 介 绍 了 两 种 聚 类 方法 . 聚 类 是 基于 距离 这 个 概念 的 ， 首先 要 定义 
两 点 之 间 的 距离 或 相似 度 ,再 根据 点 之 间 的 距离 定义 类 间距 离 ， 常用 的 点 
间距 离 有 欧 氏 距离 (Euclidean distance)、 平 方 欧 氏 距 离 (squared Euclidean 
distance)、Chebychev 距 离 、Minkovski 距 离 、 绝 对 距离 (Block 或 absolute dis- 
tance); 而 相似 度 常 用 夹 角 余弦 (cosine), Pearson 相 关系 数 等 等 , 其 中 夹 角 余弦 和 
相关 系数 称 为 相似 系数 , 它们 的 值 越 大 , 则 说 明 距 离 越 近 . 而 常用 的 类 间距 离 定 义 
包括 最 短 距 离 法 、 最 长 距离 法 、 重 心 法 、 类 平均 法 、 离 差 平 方 和 法 、 中 间距 离 
法 、 可 变 平均 法 等 等 

假定 要 确定 p 维 点 (向 量 )(z1,.…, zp) 和 (yi,…, yp) 之 间 的 距离 ， 先 介绍 少数 常 
用 的 点 间距 离 公式 . | 












距离 或 亲近 度 

欧 氏 距离 > (Ti Yi)? 

平方 欧 氏 距离 2 (Ti — yi) 

绝对 距离 > ,| [zi Yi| 
Chebychev 距 离 maxi |2i 一 Yi 
Minkovski 距 离 {2 (Ti — yi) }1/9 

夹 角 余弦 COS 0 一 >》 Tiyi/ V > ，， 2; > ，， ys 


Pearson 相 关系 数 | 7ay 一 2, (Xi 一)(yi 一 9)/ VD (ri 一 本 2 (Yi — Y)? 
属于 Gs 的 后 zj; 之 间 的 距离 , 那么 下 面 就 是 一 些 类 间距 离 的 定义 方法 . 
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。 最 短 距离 法 : DD,, = min d(xi, zy 

。 最 长 距离 法 : D,, = max d(zi, Xx);) 

e 重心 法 : D,, = d(3y, Xo) 

。 类 平均 法 : Dpg = 二 忆 oeccy DwjeG, d(Tis Tj) 


。 离 差 平方 和 法 : Dya = Di+a — D1 — Ds, 这 里 定义 Di = 2 icc, (Ti 一 
元 p) (Zi 一 元 p)， D, = xjeG, (Tj 一 元 )“(Z) 一 Za), D1» = seGsuG, (Tk 一 
元 ) (ZK 一 元 ). 
k 均 值 聚 类 : 先决 定 选择 把 观测 值 分 成 多 少 类 (假定 类 ), 然后 以 (有 些 任意 的 )k 个 
点 为 “种 子 ”, 按照 到 它们 的 距离 远近 把 所 有 点 分 成 k 类 , 再 以 这 kk 类 的 均值 (重心 ) 为 
新 的 “种 子 ” 再 重新 分 类 , 如 此 下 去 , 直到 收敛 或 者 达到 预定 的 从 代 目标 , 得 到 最 终 
的 k 类 . 
分 层 聚 类 : 从 每 个 点 都 看 成 一 类 开始 进行 两 两 合并 , 每 次 合并 距离 最 近 的 两 类 直 
到 只 有 一 类 为 止 . 最 后 再 根据 需要 , 按照 结果 (比如 树 状 图 ), 得 到 分 类 . 
3. 典型 相关 分 析 
对 于 两 组 变量 X = (Xi,.…, Xp ) 和 Y= (站,.…,】p) ,寻找 和 它们 有 关 两 个 系 
数 回 量 a 一 (ail， .1 ap)* 和 b 一 (bi, 1 bo) 使 得 新 的 称 为 典型 变量 的 综 合 变量 
WW 一 Qa:X = a Xt+aXot:: ‘十 QpA 入 p 
Wi=D Y= + + + bY 


有 尽 可 能 大 的 相关 关系 . 令 
(从 2XX LxY 

2 cmsa 人 (Sea 
从 数学 上 来 说 , 典型 相关 分 析 的 问题 实际 上 是 在 约束 条 件 Var(V) = Var(W) = 
1 下 寻求 a 和 6b 使 得 相关 系数 (这 时 等 于 协 方差 ) pyw = Cov(V,W) = a'ywb 最 
大 . 这 涉及 解 两 个 有 同样 (数目 均 为 k = min(p,g), 而 且 取 值 于 0 和 1 之 间 的 ) 非 零 特 
征 值 (X) 的 特征 值 问题 : 

Aa = Ma, Bb = Mb, 

这 里 

4 三 D112 D21,) B = D7 D217 Yi2. 
记 4 和 B 的 非 零 特征 根 和 特征 同 量 为 

和 1 之 和 2 > 之 ，， -Az > 0 和 Q(1)，.- ., Qk), D1), .Di 


可 得 到 k 对 线性 组 合 Vi 一 af X，TP = 国 员 了 = 1 有 每 一 对 变量 (Vi, Wi) 称 
为 典型 变量 ， 比如, 最 大 特征 值 的 平方 根 为 所 和 JJ 之 间 的 相关 系数 pw = 
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Corr(Vi, Wi) = Ni, 称 为 第 一 典型 相关 系数 . 一 般 只 取 前 几 个 影响 大 的 典型 变量 
和 上 典型 相关 系数 来 分 析 . 
典型 变量 的 性 质 为 : 


(1) XX 和 YY 本 身 的 一 切 典型 变量 都 不 相关 , 即 久 的 典型 变量 访 ,V2,… 等 等 都 不 相 
关 , 而 Y 的 典型 变量 Wi, W2,… 等 等 也 都 不 相关 . 


(2) 芳和 YY 的 同一 对 典型 变量 这 和 Wi 之 间 的 相关 系数 为 和 ,不同 对 的 VW 和 Wi (i 六 
站 之 间 不 相关 . 


当然 在 实际 例子 中 一 般 并 不 知道 3. 因此 在 只 有 样本 数据 的 情况 下 ,只 要 
把 守 用 样本 协 差 阵 或 样本 相关 阵 代替 就 行 了 . 但 是 这 时 的 特征 根 可 能 不 在 0 和 1 的 
范围 , 因此 会 出 现 软件 输出 中 的 特征 根 (有 可 能 远 远 大 于 1) 不 等 于 相关 系数 的 平方 
的 情况 , 一 般 , 各 种 软件 会 给 出 调整 后 的 相关 系数 . 
4. 对 应 分 析 

从 原理 上 来 说 , 对 应 分 析 把 一 对 列 变 量 和 一 对 行 变量 同时 反映 到 同一 张 图 
上 , 各 自 有 其 相应 的 坐标 轴 ( 因 子 轴 )， 下 面 从 数学 的 角度 解释 对 应 分 析 . 假定 数 
据 矩 阵 为 mn x m 算 阵 A = {aij}, 或 者 说 行 变量 有 nn 个 水 平 ( 行 变量 ), 列 变量 有 m 个 
水 平 . 为 了 要 把 行 变量 和 列 变量 关联 起 来 , 将 用 两 个 向 量 来 代表 行 和 列 变量 , 分 
别称 为 行 记 分 (row score) 和 列 记分 (column score). 令 行 记分 为 一 个 n 维 站 
量 z = {zi}, 而 列 记分 为 一 个 m 维 向 量 y = {y;}. 那么 对 于 满足 下 面条 件 的 三 元 
组 (7, zx,y) 称 为 对 应 分 析 问 题 Co( 4) 的 解 : 


式 中 ,Qi = >; ij Qj 一 5 ,ai 是 各 行 及 各 列 的 元 素 和 ， 该 式 的 意义 为 : 行 记 
分 (row score) zi 与 列 记分 (column score) y; 的 加 权 均 值 成 比例 ， 而 列 记 分 yj; 则 与 
行 记分 zx; 的 加 权 均 值 成 比例 . 数值 7 为 行列 记分 的 相关 (在 典型 相关 的 意义 上 ). 对 
该 问题 解 的 数学 推导 也 很 简单 , 对 A, x,y 做 某 种 变换 : 记 
R= diag(ai), C = diag(a.;), R'/? = diag(a!/?) 
则 上 面 式 子 有 下 面 矩 阵 (向 量 ) 形 式 
riz= RliAy ry=0 A'z, 
这 里 diag(uwi) 代 表 由 向 量 {fuoi} 作 为 对 角 线 元 素 的 对 角 线 矩阵 ， 而 ai. 与 oj 分 别 代 
表 A 的 行 总 和 及 列 总 和 所 形成 的 向 量 . 不 难 验证 这 两 个 式 子 等 价 于 
rRi/2z — (R72ACT2)C 2y; 
rCU2y 二 (Cr-Ua4TR-12)RH2z = (R-Y2AC- MW) RY. 
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由 此 , z 为 该 方程 一 个 解 的 条 件 是 下 面 两 组 特征 值 问题 有 解 : 
r? (RI/27) _ (RI2AC IY) R12AOCT 2)T (R27); 
r2 (C2y) — (R72?ACTI2)T (RT ?2ACT M2) (O22). 


令 

7 = R-1/2AC-/?, 7) 三 R'/2%, 1 二 Ol/27, 
前 面 的 特征 值 问 题 可 以 写成 

ru = ZiTIZu 及 ro 一 QIU 

这 是 两 个 特征 值 问题 . 它们 有 同样 的 非 零 特征 值 . 如 U 是 2Z72Z 的 特征 同 量 ， 
则 2GB 是 2 和 5 的 特征 问 量 .根据 线性 代数 ， 显 然 王 为 对 应 于 行 和 列 的 两 个 特征 
值 问 题 的 共同 最 大 特征 值 的 解 ( 这 里 取 最 大 的 两 个 , 最 多 不 超过 min(m,n) 个 ). 此 
后 的 分 析 就 和 主 成 分 分 析 等 类 似 了 , 也 有 载荷 图 , 但 由 于 是 两 个 有 同样 非 零 特征 
值 的 特征 值 问题 , 就 会 有 两 个 载荷 图 , 这 两 个 载 衔 图 重合 展示 则 产生 对 应 分 析 的 
图 (如 图 8.9). 


8.5.2 ”及 语句 的 说 明 

由 于 多 数 例题 的 R 代 码 已 经 在 课文 中 展示 , 这 里 不 重复 . 仅 给 出 一 些 补充 . 
1. 主 成 分 分 析 

在 前 面 课文 中 , 我 们 做 主 成 分 分 析 完 全 按照 数学 公式 做 的 , 没有 用 现成 的 函 
数 , 下 面 语句 是 对 例 8.1 用 现成 函数 princomp() 的 代码 : 


w=read.table("who.txt",sep=",'",header=T) 

y=princomp (Ww, cor=1); 

y$sdev # 特 征 值 的 平方 根 

y$load # 单 位 特征 问 量 等 

y$scores # 因 子 得 分 

screeplot(y) # 团 scree 图 

sweep(y$loa[,1:10] ,2,y$sde,"*")# 单 位 特征 问 量 乘 相应 特征 值 平方 根 得 相 
天 系数 


2. ”典型 相关 分 析 


在 前 面 课文 中 , 我 们 做 典型 相关 分 析 时 用 的 是 程序 包 cCA 中 的 函数 ,下面 语 句 
是 对 例 8.4 用 另 一 个 函数 cancor () 的 代码 : 


w=read.table('"tv.txt'",header=T) 
1 最 大 特征 值 为 1 是 平凡 解 , 两 组 的 非 零 特 征 值 相同 ! 
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X=w[,1:3] :Y=w[ ,4:6] 

a=cancor (X,Y) 

a$xcoef # 给 出 了 第 一 组 变量 的 三 个 典型 变量 的 系数 
a$ycoef # 给 出 了 第 二 组 变量 的 三 个 典型 变量 的 系数 
a$cor # 给 出 了 这 三 对 变量 的 相关 系数 


8.6 ”习题 


1. 
2. 


人 


11. 


重复 例 8.1( 数 据 who.txt) 的 主 成 分 分 析 和 因子 分 析 的 计算 . 说 明 它 们 的 区 别 . 


重复 例 8.1( 数 据 who.txt) 的 主 成 分 分 析 和 因子 分 析 的 计算 , 但 试用 不 同 选项 . 看 
结果 和 第 1 题 是 否 有 区 别 . 


. 利用 例 7.1 (数据 : bschool.txt) 的 美国 60 个 著名 商学 院 的 数据 , 包括 的 变量 


有 GMAT 分 数 、 学 费 、 进 入 MBA 前 后 的 工资 等 等 , 其 中 有 4 个 定量 变量 . 试图 
对 这 4 个 变量 用 主 成 分 分 析 进 行 降 维 . 得 到 结果 后 , 再 对 该 数据 做 因子 分 析 . 比 
较 这 两 个 结果 , 得 出 你 的 结论 . 


. 对 本 书 所 附 数据 student.txt 进 行 主 成 分 分 析 和 因子 分 析 的 计算 , 解释 结果 , 说 


明 它 们 的 区 别 . 注 : 那里 的 数据 为 100 个 学 生 的 数学 、 物 理 、 化 学 、 语 文 、 历 
史 、 英 语 的 成 绩 . 


. 重复 对 例 8.2 的 分 层 聚 类 , 只 不 过 去 掉 一 两 个 变量 , 看 聚 类 过 程 和 结果 是 如 何 变 


化 的 . 


. 对 例 8.1 的 数据 (who.txt) 进 行 分 层 聚 类 (R 型 聚 类 ), 分 成 几 类 合适 ?并 试图 解释 


案 类 结果 . 


. 对 例 8.3 做 快速 聚 类 或 两 步 聚 类 , 比较 结果 . 
. 把 例 8.4 数 据 (tv.txt) 的 各 个 变量 重新 组 合 分 成 两 组 (比如 把 hed、arti 和 man 分 


成 一 组 , 而 led、net 和 com 分 在 另 一 组 ) 进 行 典型 相关 分 析 , 看 典型 相关 系数 如 
何 变 化 , 并 对 照例 8.4 来 解释 结果 . 


. 从 出 实际 中 可 能 应 用 典型 相关 分 析 的 例子 . 
10， 


对 应 分 析 和 因子 分 析 有 什么 不 同 ? 


R 程 序 包 MASS 有 一 个 caith 数 据 ( 也 是 头发 和 了 眼睛 颜色 的 数据 ) 对 其 做 对 应 分 
析 , 和 用 例 7.8 做 的 对 应 分 析 结 果 做 比较 , 并 解释 输出 . 
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第 九 章 ” 随 时间 变 化 的 对 象 : 时 间 序 列 分 析 


能 不 能 用 一 个 商场 前 12 个 月 的 销售 情况 来 预测 其 下 个 月 的 销售 额 ? 能 不 能 用 
过 去 5 年 的 月 度 物价 指数 来 预测 明年 的 物价 指数 ?这些 问 题 所 研究 的 对 象 都 和 时 
闻 有 关系 , 也 就 是 本 章 要 介绍 的 时 间 序 列 (time series). 时 间 序 列 模型 也 是 某 种 
回归 模型 , 但 方法 和 以 前 介绍 的 回归 有 很 大 区 别 , 它 是 用 同一 个 变量 过 去 的 观测 值 
来 预测 其 未 来 的 观测 值 . 

人 们 对 统计 数据 往往 可 以 根据 其 特点 从 两 个 方面 来 切入 , 以 简化 分 析 过 程 . 
一 个 是 研究 上 所谓 横 截 面 (cross section) 数 据 , 也 就 是 研究 对 大 体 上 同时 发 生 的 或 
者 和 时 间 关 系 不 大 的 不 同 对 象 的 观测 值 组 成 的 数据 另 一 个 就 是 时 间 序 列 , 也 就 
是 由 对 象 在 不 同时 间 的 观测 值 形 成 的 数据 . 前面 讨论 的 模型 多 是 和 横 截 面 数 据 有 
关 . 这 里 所 说 的 时 间 序 列 的 时 间 间 隔 是 固定 的 , 而 且 观 测 时 间 有 一 定 的 长 度 . 有 些 
数据 也 有 很 多 重复 观测 , 但 观测 时 间 问 隔 不 一 定 一 样 , 而 且 重 复 次 数 较 短 , 而 有 可 
能 会 有 多 个 变量 , 称 为 纵向 数据 . 纵向 数据 的 处 理 方法 和 这 里 要 讲 的 时 间 序 列 完 
全 不 同 , 本 书 将 不 予以 讨论 . 本 书 主要 讨论 一 个 变量 的 时 间 序 列 , 不 去 讨论 同时 处 
理 多 个 时 间 序 列 的 问题 . 

经 典 的 回归 分 析 的 目的 是 建立 因 变 量 和 上 自 变量 之 间 关 系 的 模型 , 并 且 可 以 用 
自 变 量 来 对 因 变 量 进行 预测 . 经 典 线性 回归 分 析 模 型 中 的 误差 项 通常 假定 是 互相 
独立 并 且 有 同样 分 布 . 而 时 间 序 列 的 观测 值 并 不 独立 , 比如 一 个 企业 今天 的 收入 和 
其 昨天 的 收入 就 很 相关 . 时 间 序 列 的 因 变 量 为 变量 未 来 的 可 能 值 , 而 用 来 预测 的 目 
变量 中 就 包含 该 变量 的 一 系列 历史 观测 值 . 下 面 看 一 个 时 间 序 列 的 数据 例子 . 希 
望 能 够 从 这 个 数据 找 出 一 些 规律 , 并 且 建 立 可 以 对 未 来 进行 预测 的 时 间 序 列 模型 ， 


例 9.1 税收 数据 (tax.txt) 这 是 某 地 从 1995 年 1 月 到 2005 年 7 月 的 税收 (单位 : 
万 元 ). 该 数据 为 按照 时 间 顺 序 的 按 月 记录 , 共 127 个 观测 值 . 从 该 数据 中 的 众多 的 
数目 只 能 够 看 出 一 个 大 概 , 即 总 的 趋势 是 增长 , 但 有 起 伏 . 利用 点 图 则 可 以 得 到 对 
该 数据 更 加 直观 的 印象 . 图 9.1 就 是 由 该 数据 得 到 的 一 个 时 间 序 列 图 . 从 这 个 后 图 
可 以 看 出 , 总 的 趋势 是 增长 的 , 但 增长 并 不 是 单调 上 升 的 . 大 体 上 看 , 这 种 升降 不 
是 杂乱 无 章 的 , 和 季节 或 月 份 的 周期 有 关系 . 当然 , 除了 增长 的 趋势 和 地 节 影响 之 
外 , 还 有 些 无 规律 的 随机 因素 的 作用 . 这 个 只 有 一 种 随 着 时 间 变 化 的 变量 的 序列 
一 般 称 为 纯粹 时 间 序 列 (pure time series). 下 面 将 通过 该 例子 对 纯粹 时 间 序 列 
进行 介绍 . 

该 图 是 用 下 面 代码 画 的 (包括 数据 输入 和 对 数据 定义 起 始 时 间 和 周期 ): 
x=scan('"tax.txt") 
tax=ts(x, frequency = 12, start = c(1995, 1)) 
ts.plot(tax,ylab="Tax'") 

聪明 的 读者 可 能 马上 会 问 , 用 一 个 变量 本 身 的 历史 值 来 预测 其 未 来 值 会 准确 
吗 ? 这 种 想法 是 非常 有 道理 的 . 仅仅 在 孤立 系统 , 也 就 是 说 , 其 他 因素 对 感 兴趣 的 
变量 没有 影响 或 者 影响 可 以 抵消 或 者 忽略 时 , 时 间 序 列 分 析 才 有 意义 . 大 家 可 以 想 
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Tax 
6e+05 8e+05 1e+06 
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9.1 某 地 从 1995 年 1 月 到 2005 年 7 月 的 税收 数据 图 (单位 : 万 元 ). 


一 想 , 什么 类 型 的 变量 可 能 具有 这 种 孤立 的 性 质 呢 ? 实际 上 , 纯粹 孤立 系统 是 不 存 
在 的 , 所 以 , 时 间 序 列 仅 仅 是 现实 世界 的 一 种 近似 . 任何 统计 模型 都 有 其 局 限 性 ， 
都 是 对 实际 世界 的 不 同 程度 的 近似 . 统计 学 家 不 应 对 任何 统计 模型 的 功效 予以 从 
大 , 更 不 能 把 一 种 模型 或 者 理论 当成 信仰 ， 


9.1 时 间 序 列 的 组 成 部 分 


从 图 9.1 可 以 看 出 , 该 时 间 序 列 总 体 上 是 有 一 个 上 升 趋势 , 但 又 有 些 周期 性 
波动 , 但 又 不 是 非常 整齐 的 ， 一 般 来 说 , 比较 简单 的 时 间 序 列 可 以 有 三 部 分 组 
成 : 趋势 (trend)、 季 节 (seasonal) 成 分 和 无 法 用 趋势 和 季节 模式 解释 的 随机 干 
扰 (disturbance)!. 例 9.1 数 据 的 税收 就 可 以 用 这 三 个 成 分 登 加 而 成 的 模型 来 描 
述 . 一 些 时 间 序 列 还 可 能 有 循环 或 波动 (Cyclic, or fluctuations) 成 分 , 循环 模 
式 和 有 规律 的 季节 模式 不 同 , 周期 长 短 不 一 定 固定 . 比如 经 济 经 济 危机 周期 、 金 


， 融 危机 周期 等 等 . 一 个 时 间 序 列 可 能 有 趋势 、 季 节 、 循 环 这 三 个 成 分 中 的 茶 些 或 


全 部 再 加 上 随机 成 分 . 因此 , 如 果 要 想 对 一 个 时 间 序 列 本 身 进 行 较 深入 的 研究 , 把 
序列 的 这 些 成 分 分 解 出 来 , 或 者 把 它们 过 滤 掉 则 会 有 很 大 的 帮助 . 如 采 要 进行 预 
测 , 则 最 好 把 模型 中 的 与 这 些 成 分 有 关 的 参数 估计 出 来 . 对 例 9.1 的 时 间 友 列 通过 
计算 机 软件 进行 分 解 , 则 可 以 轻而易举 地 得 到 该 序列 的 趋势 、 季 节 和 误差 成 分 . 
下 面 的 图 9.2 的 左 图 表示 了 去 掉 季节 成 分 , 只 有 趋势 和 误差 成 分 的 序列 的 一 条 曲线 . 
图 9.2 中 间 图 用 两 条 曲线 分 别 描绘 了 纯 趋 势 成 分 和 纯 季 市 成 分 ， 图 9.2 右 图 用 两 条 


“随机 于 扰 在 模型 中 也 称 为 误 产 . 
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曲线 分 别 描绘 了 纯 趋势 成 分 和 纯 误差 成 分 . 这 些 图 直观 地 描述 了 对 于 和 之 有 几 种 成 
分 的 时 间 序 列 的 分 解 . 该 图 是 用 下 面 代码 画 的 : 

a=stl(tax,，"period") # 进 行 分 解 

par (mfrow=c (1,3)) 

plot (tax-a$time.series[,1] ,ylab="",main="Without Seasonal") 
ts.plot(a$time.series[,1:2] ,main="Trend and error") 
ts.plot(a$time.series[,2:3] ,main="Trend and Seasonal") 
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9.2 ” 例 9.1 数 据 的 分 解 图 . 


可 以 看 到 , 在 定义 时 间 序 列 时 , 周期 必须 事先 确定 , 单位 为 年 、 月 、 日 、 周 等 
等 . 假定 感 兴趣 的 是 零售 商品 的 销售 , 如 果 有 特殊 日 子 ( 比 如 像 新 年 及 圣诞 下 一 类 
的 在 阳历 中 国定 的 节假日 ), 则 必须 予以 方法 上 的 调整 , 而 对 于 在 阳历 中 不 固定 的 
节假日 (如 春节 、 中 秋 节 等 ) 就 没有 那么 简单 了 . 
9.2 ”指数 平江 z 

如 果 人 们 不 仅仅 满足 于 分 解 现 有 的 时 间 序 列 , 而 且 想 要 对 未 来 进行 预测 ， 就 需 
要 建立 模型 . 首先 , 这 里 介绍 比较 简单 的 指数 平滑 (exponential smoothing). 
指数 平滑 只 能 用 于 纯粹 时 间 序 列 的 情况 , 指数 平 请 的 原理 为 : 当 利 用 过 去 观测 值 的 
加 权 平 均 来 预测 未 来 的 观测 值 时 (这 个 过 程 称 为 平滑 ), 离 得 越 近 的 观测 值 要 给 以 
更 多 的 权 . 而 “指数 "意味 着 : 按照 已 有 观测 值 “陈旧 ”程度 增加 的 方 癌 , 在 其 上 所 加 
的 权 数 按 指数 速度 递减 .以 简单 的 没有 趋势 和 没有 季节 成 分 的 纯粹 时 间 序 列 为 例 ， 
指数 平滑 在 数学 上 实际 是 一 个 几何 级 数 . 这 时 , 如 果 用 表示 在 t 时 间 的 平滑 后 的 
数据 (或 预测 值 ), 而 用 六]1, 六 2,.…., 六: 表示 原始 的 时 间 序 列 . 那么 指数 平滑 最 简单 的 
模型 为 

Y= aX (lo— ok, 0O<a<l1. 

这 里 当 t = 1 时 , 会 出 现 未 知 的 加 , 它 是 需要 设 定 的 初始 值 , 通常 设 为 Xi， 这 
时 六 = Xi 该 模型 可 等 价 地 写成 Yi = a ji_0(1 一 a)*X kx 这 里 的 系数 为 几何 
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级 数 ， 因此 有 人 认为 称 之 为 “几何 平滑 ” 比 使 人 不 解 的 “指数 平 请 ”似乎 更 有 道理 . 
自然 , 这 种 在 简单 情况 下 导出 的 公式 (如 上 面 的 公式 ) 无 法 应 对 具有 各 种 成 分 的 复 
杂 情 况 . 本 章 后 面 将 给 出 各 种 实用 的 指数 平滑 模型 的 公式 . 根据 数据 , 可 以 得 到 
这 些 模 型 参数 的 估计 以 及 对 未 来 的 预测 . 在 和 例 9.1 有 关 的 指数 平滑 模型 中 , 需要 
估计 12 个 季节 指标 和 三 个 参数 (包含 前 面 公式 权重 中 的 w、 和 趋势 有 关 的 Y 以 及 和 
季节 指标 有 关 的 6). 在 简单 的 选项 之 后 , 可 以 利用 计算 机 软件 通过 指数 平滑 产生 
对 2005 年 7 月 后 一 年 的 预测 .图 9.3 为 用 R 软 件 绘 出 的 原始 的 时 间 序 列 ( 实 线 ) 和 和 预 
测 的 部 分 (虚线 ), 包括 对 2005 年 7 月 之 后 12 个 月 的 预测 . 为 对 例 9.1 进 行 指数 平滑 以 
及 预测 并 形成 图 9.3 使 用 了 下 面 代码 : / 


b=HoltWinters(tax,beta=0) ;tax.p=predict (b,n.ahead=12) 
ts.plot(tax,xlim=c(1995,2006.5));lines(tax.p,col=1,1ty=3) 


tax 
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9.3” 例 9.1 数 据 遂 过 指数 平滑 做 出 12 个 月 的 预测 . 
如 果 要 对 比较 复杂 的 纯粹 时 间 序列 进行 细致 的 分 析 , 指数 平滑 并 不 总 是 满足 


要 求 的 ， 人 们 想 出 了 数学 上 更 加 复杂 的 模型 , 这 就 是 下 面 要 介绍 的 Box-Jenkins 
ARIMA 模 型 . 


9.3 ” Box-Jenkins 方法 : ARIMA 模 型 


9.3.1 ARIMA 模 型 介绍 


比 指数 平滑 要 更 精细 的 模型 是 Box-.Jenkins 引 入 的 ARIMA 模 型 ， 或 称 为 整 
合 自 回归 移动 平均 模型 (ARIMA 为 Autoregressive Integrated Moving Aver- 
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age 的 些 关键 字母 的 缩写 )， 前 面 说 过 , 一 个 时 间 序 列 可 能 会 由 季 市 、 趋 势 和 随机 
干扰 三 个 部 分 组 成 ,ARIMA 的 想法 是 , 如 果 能 够 把 季节 和 趋势 从 数据 中 过 滤 掉 ， 
而 剩 下 的 部 分 有 某 些 数学 上 的 特点 , 使 得 可 以 对 剩 下 的 那 部 分 建 模 , 即 后 面 要 介 
绍 的 ARMA 模 型 , 那么 , 在 得 到 该 模型 之 后 , 再 把 周期 和 趋势 整合 进去 (把 字母 I 加 
到 ARMA 中 ) 以 得 到 结果 , 这 就 是 ARIMA 模 型 名 字 的 来 历 . 

ARIMA 模 型 的 基础 是 自 回归 和 移动 平均 模型 或 ARMA(Autoregressive 
and Moving Average) 模型 . 它 由 两 个 特殊 模型 发 展 而 成 , 一 个 特例 是 自 回归 
模型 或 AR(Autoregressive) 模 型 . 如果 时 间 序 列 用 XX], Xa, …, XX: 表 示 , 则 一 个 纯 
粹 的 AR(p) 模型 意味 着 变量 的 一 个 观测 值 由 其 以 前 的 p 个 观测 值 的 线性 组 合 加 上 
随机 误差 项 ai( 该 误差 为 独立 不 相关 的 ) 而 得 : 

人 一 的 AI 十 :十 加 和 十 Q 


这 看 上 去 像 序列 自己 对 自己 回归 -- 样 , 所 以 称 为 自 回 归 模 型 . 它 牵 涉 到 过 去 p 个 观 
测 值 ( 相 关 的 观测 值 间隔 最 多 为 2 个 ). ARMA 模 型 的 另 一 个 特例 为 移动 平均 模型 
或 MA(Moving Average) 模型 .一 个 纯粹 的 MA(g) 模 型 意味 着 变量 的 一 个 观 
测 值 由 目前 的 和 先前 的 g 个 随机 误差 的 线性 的 组 合 : 


XX, 一 Wi 一 O141_1 一 "一 Quar yo. 


由 于 右边 系数 的 和 不 为 1 (系数 甚至 不 一 定 是 正 数 ), 因此 有 人 觉得 , 叫做 “移动 平 
均 ” 不 如 叫做 :移动 线性 组 合 "更 确切 ,虽然 行家 已 经 习惯 于 叫 “ 平 均 ” 了 , 但 初学 
者 还 是 因此 可 能 和 初等 平滑 方法 中 的 什么 “三 点 平均 "之 类 的 术语 混淆， 显然 ， 
ARMA(p, gq) 模型 应 该 是 AR(p) 模 型 和 MA(g) 模 型 的 组 合 六 : 

Xi = PIKE Dopo. 


显然 ARMA(p.0) 模 型 就 是 AR(p) 模 型 , 而 ARMA(0,g) 模 型 就 是 MA(g) 模 型 . 一 
般 的 ARMA(p,g) 模 型 有 p + g 个 参数 要 估计 , 看 起 来 很 繁琐 , 但 利用 计算 机 软件 则 
是 常规 运算 , 并 不 复杂 . 但 是 要 想 ARMA(p,g) 模 型 有 意义 则 要 求 它 必 须 满 足 平稳 
性 (stationarity) 和 可 道 性 (invertibility) 的 条 件 , 这 意味 着 序列 均值 不 随 着 时 
间 增 加 或 减少 、 序 列 的 方差 不 随时 间 变 化 、 序 列 本 身 相 关 的 模式 不 改变 等 等 许多 
数学 条 件 . 一 个 实际 的 时 间 序 列 是 否 满足 这 些 条 件 是 无 法 在 数学 上 验证 的 . 一 个 
模型 是 否 可 用 , 可 以 通过 下 面 要 介绍 的 时 间 序 列 的 自 相 关 函 数 图 和 偏 相关 函数 图 
中 大 体 识别 出 来 . 一 般 人 们 所 关注 的 有 趋势 和 季节 /循环 成 分 的 时 间 序 列 都 不 会 
满足 这 些 要 求 的 . 这 时 就 需要 对 时 间 序 列 进行 差分 (difference) 来 消除 这 些 使 序 
列 不 平稳 的 成 分 , 而 使 其 变 成 平稳 的 时 间 序 列 , 并 估计 ARMA 模 型 的 参数 , 估计 之 
后 再 转变 该 模型 , 使 之 适应 于 差分 之 前 的 序列 (这 个 过 程 和 差分 相反 . 所 以 称 之 为 
整合 的 (integrated)ARMA 模 型 ), 得 到 的 最 终 模型 于 是 称 为 ARIMA 模 型 . 

这 里 所 说 的 差分 是 什么 意思 呢 ? 差分 可 以 是 每 一 个 观测 值 减 去 其 前 面 的 一 个 
观测 值 , 即 

Xi — X11 


这 样 , 如 果 时 间 序 列 有 一 个 斜率 不 变 的 趋势 , 经 过 这 样 的 差分 之 后 , 该 趋势 就 会 被 
消除 了 .当然 差分 也 可 以 是 每 一 个 观测 值 减 去 其 前 面 任 意 闻 隅 的 一 个 观测 值 , 比 
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如 时 间 序 列 存在 周期 为 s 的 季节 成 分 , 那么 相隔 s 的 差分 
从; 四 从 ) 。 

就 可 以 把 这 种 以 s 为 周期 的 季节 成 分 消除 . 对 于 复杂 情况 , 可 能 要 进行 多 次 差分 

才能 够 使 得 变换 后 的 时 间 序 列 平稳 和 可 逆 ， 当然, 也 可 能 永远 达 不 到 这 种 要 求 ， 

思考 一 下 : 

1， ARIMA 模 型 是 通过 差分 , 把 时 间 序 列 变 成 ARMA 模 型 , 再 用 数学 方法 来 得 到 
它 , 然后 再 整合 (Integration) 成 ARIMA 模 型 . 这 主要 因为 , 人们 在 数学 上 对 候 
定 的 ARMA 模 型 还 有 些 办 法 . 

2. ARIMA 横 型 需要 假定 很 多 无 法 由 数据 来 验证 的 数学 条 件 , 因此, 只 能 希望 这 里 

的 序列 经 过 差分 之 后 能 够 近似 地 满足 这 些 条 件 . 但 现实 世界 毕竟 和 理想 的 数学 

世界 有 差距 . 完全 符合 现实 世界 的 模型 是 不 存在 的 . 














9.3.2 ARMA 模 型 的 识别 和 估计 


上 面 一 小 节 , 引进 了 一 些 必要 的 术语 和 概念 . 下 面 就 如 何 识 别 模型 进行 说 明 . 
要 想 拟 合 ARIMA 模 型 ,必须 先 把 它 利 用 差分 变 成 ARMA(p, 9g) 模型 , 并 确定 是 否 
平稳 , 然后 确定 参数 p 和 9. 现在 利用 一 个 例子 来 说 明 如 何 识别 一 个 AR(p) 模 型 和 参 
数 p. 而 MA(g) 及 ARMA(p,g) 模 型 可 用 类 似 的 方法 来 识别 . 根据 ARMA(p, 9g) 模型 
的 定义 , 它 的 参数 p, g 的 取 值 大 小 和 自 相 关 函 数 (acf，autocorrelations func- 
tion) 及 偏 自 相关 函数 (pacf, partial autocorrelations function) 有 关 . 自 相 
关 函 数 描述 观测 值 和 前 面 的 观测 值 的 相关 系数 , 而 偏 自 相关 函数 为 在 给 定 中 间 
观测 值 的 条 件 下 观测 值 和 前 面 某 间隔 的 观测 值 的 相关 系数 .举例 来 说 , acf 图 上 
在 整数 横 坐 标 0, 1, 2,... 上 有 许多 条 , 在 第 ;坐标 上 的 条 的 高 度 等 于 Xi 和 X ;的 相 
关系 数 , 而 在 pacf 图 上 第 i 个 条 的 高 度 等 于 X, 与 XX,_; 在 其 中 间 的 值 给 定 的 条 件 下 
的 相关 系数 . 在 这 两 个 图 上 如 果 横 坐标 有 0( 有 时 没有 ), 那么 上 面条 的 高 度 应 该 
是 1(X 和 X 目 己 的 相关 系数 ). 这 里 当然 不 打算 讨论 这 两 个 概念 的 细节 . 引进 这 两 
个 概念 主要 是 为 了 能 够 了 解 如 何 通过 研究 关于 这 两 个 函数 的 acf 和 pacf 图 来 识别 模 
型 . 为 了 直观 地 理解 上 面 的 概念 , 下 面 利用 一 个 例子 ( 例 9.2) 来 描述 . 


例 9.2 数据 (ar2.txt) 该 数据 是 为 了 说 明 如 何 对 一 个 时 间 序 列 数据 进行 AR 模 
型 识别 . 原始 时 间 序 列 由 图 9.4( 上 图 ) 描 述 . 该 序列 的 acf 和 pacf 图 显示 在 图 9.4 的 下 
面 左 右 两 图 . 图 9.4 是 由 下 面 代码 ( 包 插 读 入 数据 ) 实 现 的 : 
x=scan('"ar2.txt") 
layout (matrix(c(1,1,2,3),nr=2,byrow=T)) 
ts.plot(x) ;acf (x) ;pacf (x) 


图 9.4 下 面 左 图 的 acf 条 形 图 是 衰减 的 指数 型 的 波动 , 这 种 图 形 称 为 拖 尾 . 而 右 
边 的 pacf 条 形 图 是 在 第 二 个 条 (p = 2) 之 后 就 很 小 , 而 且 没 有 什么 模式 , 这 种 图 形 
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9.4” 例 9.2 数 据 的 时 间 序 列 ( 上 图 ) 及 其 acf( 下 左 ) 和 pacf( 下 右 ) 图 . 


称 为 在 p = 2 后 截 尾 . 这 说 明 该 数据 近似 满足 平稳 的 AR(2) 模 型 . 注意 , 所 谓 拖 尾 
图 形 模式 可 能 是 以 正 负 相间 的 正弦 形式 衰减 , 也 可 能 是 以 指数 率 衰 减 . 类 似 地 , 如 
果 acf 图 形 是 在 第 g = k 个 条 后 截 尾 , 而 pacf 图 形 为 拖 尾 , 则 数据 可 能 适合 MA(g) 模 
型 . 如 果 两 个 图 形 都 拖 尾 则 可 能 满足 ARMA(p,g) 模 型 . 具体 的 近似 判别 法 总 结 在 
下 面 : 

如 何 用 pacf 及 acf 图 的 拖 尾 和 截 尾 判断 ARMA 模 型 


ARMA {p,q) 
_pacf 图 形 头 p 条 无 规律 , 其 后 拖 尾 
acf 图 形 头 4 个 条 无 规律 , 其 后 拖 尾 

如 果 acf 和 pacf 的 图 中 均 没 有 截 尾 , 而 且 至 少 有 一 个 图 没有 显示 以 指数 形式 或 
正弦 形式 衰减 , 那么 说 明 该 序列 不 是 平稳 序列 , 必须 进行 差分 变换 来 得 到 一 个 可 以 
估计 参数 的 满足 ARMA(p, 9) 模 型 的 序列 . 而 如 果 一 个 时 间 序 列 的 acf 和 pacf 图 没 
有 任何 模式 , 而 且 数 值 很 小 , 那么 这 个 序列 可 能 就 是 一 些 互 相 独 立 的 无 关 的 随机 变 
量 , 一 个 拟 合 良 好 的 时 间 序 列 模型 的 残 差 束 应 该 有 这 样 的 acf 和 pacf 图 . 

图 9.5 为 模拟 的 AR(2), MA(2) 和 ARMA(2,2) 三 个 序列 所 对 应 的 acf 和 pacf 图 . 
注意 , 图 中 有 些 条 是 从 0 开始 的 (不 算 在 p 或 g 内 ). 这 几 个 图 是 用 R 软 件 模 拟 出 
来 的 . 可 以 看 出 上 面 表 中 的 准则 不 那么 准确 ,按照 上 表 来 判断 头 两 行 
为 AR(2) 和 MA(2) 没 有 问题 , 但 最 后 两 图 按照 上 表 实 在 不 好 判断 其 p, g 是 多 少 . 
这 也 说 明 这 个 判别 的 粗糙 性 . 特别 是 对 ARMA 模 型 ,，“ 头 几 个 条 无 规律 "这 人 句 话 不 
那么 清楚 , 因此 也 不 易 掌握 好 , 很 难 判 别 准确 ， 模 拟 这 几 个 序列 及 夯 相 应 的 acf 图 
及 pacf 图 的 及 代码 如 下 : 
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set.seed(1010) 
Xi1i=arima.sim(list(c(2,0,0),ar=c(0.3,-0.6)),n = 200) 
XxX2=arima.sim(list(c(0,0,2) ,ma=c(-0.3,-0.4)),n = 200) 
x3=arima.sim(l]ist(c(2,0,2),ar=c(.3,.6) ,ma=c(.5, .2)) ,n=200) 
par (mfrow=c (3,2)) 

acf (x1,main="Acf of AR(2) Series") 

pacf (x1,main="Pacf of AR(2) Series") 

acf(x2 ,main='"Acf of MA(2) Series'") 

pacf (x2,main="Pacf of MA(2) Series") 

acf (x3,main="Acf of ARMA(2,2) Series") 

pacf (x3,main="Pacf of ARMA(2,2) Series") 


Acf of AR(2) Series Pacf of AR(2) Series 


ACF 
Partial ACF 


-0.6 -0.2 





bag 


ACF 
-0.4 02 08 
Partial ACF 

-04 -0.1 


AC 
-02 04 10 
Partiat ACF 
-0.2 0.4 





图 9.5 模拟 的 AR(2), MA(2) 和 ARMA(2,2) 序 列 所 对 应 的 acf 和 pacf 图 . 


对 于 例 9.2 数 据 , 根据 图 9.4 中 acf 和 pacf 图 的 形态 , 不 用 进行 任何 差分 就 可 以 直 
接 用 AR(2) 模 型 拟 合 , 下 面 R 代 码 就 包括 了 读 入 数据 , 估计 模型 参数 及 对 未 来 50 个 
观测 进行 预测 并 男 图 (这 里 没有 显示 图 形 , 因为 对 平稳 序列 预测 没有 意义 ). 


x=scan("ar2.txt'"); (d=arima(x,c(2,0,0),include .mean=F)) 
pr=predict(d,50) ;ts.plot(x);lines(pr$pred,1lty=2) 


输出 为 : 


Coefficients.: 
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arl ar2 

0.4784 0.4064 

s.e. 0.0408 0.0410 
sigma“2 estimated as 0.8644:1og likelihood=-673.76,aic=1353.51 


得 到 的 AR(2) 参 数 估计 为 0， = 0.4784,0。= 0.4064,， 也 就 是 说 拟 合 出 来 的 
该 AR(2) 模 型 为 
A ,一 0.4784X 1 十 0.4064A，， 十 Qi 


其 实 , 对 于 平稳 序列 进行 预测 没有 多 大 意义 , 因为 它们 的 均值 是 不 变 的 . 下 面 
再 看 剩 下 的 残 差 序 列 是 否 还 有 什么 模式 . 这 还 可 以 由 残 差 的 acf 和 pacf 条 形 图 来 判 
浙 . 这 两 个 图 分 别 在 图 9.6 的 左 图 和 中 图 . 可 以 看 出 , 它们 没有 什么 模式 (注意 acf 图 
的 第 一 个 条 是 在 0 点 ), 这 说 明 拟 合 比 较 成 功 . 图 9.6 右 图 为 残 差 序列 图 , 从 中 看 不 出 
任何 模式 . 说 明 残 差 序 列 看 来 是 (满足 要 求 的 ) 独 立 和 随机 的 . 


Series dSres 
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| 

人 | 

| 
9.6 ” 例 9.2 数 据 拟 合 AR(2) 的 残 差 序列 的 pacf( 左 ) 和 acf( 中 ) 图 及 残 差 序列 图 ( 右 ). 

思考 一 下 : 


1. 在 拟 合 ARMA 模 型 时 也 有 许多 不 同 的 方法 , 因此 得 到 的 估计 结果 也 不 尽 相 同 . 
在 及 中 就 有 若干 方法 的 选项 , 还 有 包括 不 包括 截 距 (或 均值 ) 的 选项 等 等 ， 


2. 在 实际 世界 中 , 很 少 会 遇见 平稳 序列 , 也 就 是 方差 和 均值 都 不 变 的 序列 , 即使 
有 , 也 没有 任何 预测 的 必要 , 因为 平稳 意味 着 均值 不 变 , 还 有 什么 可 预测 的 呢 : 





9.3.3 用 ARIMA 模 型 拟 合 


在 对 含有 季节 和 趋势 /循环 等 成 分 的 时 间 序 列 进行 ARIMA 模 型 的 拟 合 研究 和 
预测 时 , 就 不 像 对 纯粹 的 满足 可 解 条 件 ( 平 稳 性 和 可 逆 性 ) 的 ARMA 模 型 那么 简单 
了 ， 一 般 的 ARIMA 模 型 有 多 个 参数 , 没有 季节 成 分 的 可 以 记 为 ARIMA(p,d,g)， 
如 果 没 有 必要 利用 差分 来 消除 趋势 或 循环 成 分 时 ， 差 分 阶 数 d = 0, 模型 
为 ARIMA(p,0,9), 即 ARMA(p,g)， 在 有 已 知 的 固定 周期 s 时 , 模型 多 了 4 个 参 
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数 , 可 记 为 ARIMA(p,d,g)(P.D,Q@)s. 这 里 增加 的 除了 周期 s 已 知之 外 , 还 有 描述 
季节 本 身 的 ARIMA(P, D,@) 的 模型 识别 问题 . 因此 , 实际 建 模 要 复杂 得 多 . 需要 
经 过 反复 比较 . 

先前 对 例 9.1( 数 据 tax.txt) 进 行 了 分 解 ， 并 且 用 指数 平滑 做 了 预测 . 知道 
其 中 有 季节 和 趋势 成 分 ， 下 面试 图 对 其 进行 ARIMA 模 型 拟 合 . 先 对 该 序列 
做 acf 和 pacf 条 形 图 ， 其 中 acf 图 ( 见 图 9.7) 显 然 不 是 拖 尾 (不 是 以 指数 速率 递减 )， 
这 说 明 需 要 进行 差分 . 关于 参数 的 选择 , 不 要 选 得 过 大 . 每 次 拟 合 之 后 要 
检查 残 差 的 acf 和 pacf 图 ,看 是 否 为 无 关 随 机 序列 ， 人 们 可 能 要 经 过 多 次 对 
比 , 才能 把 ARIMA 模 型 的 各 个 参数 识别 出 来 . 对 于 例 9.1 数 据 , 我 们 最 后 选中 
了 ARIMA(0,1, 1(1 2,1)22 模 型 来 拟 合 . 拟 合 的 结果 和 对 2005 年 7 月 之 后 12 个 月 
的 预测 在 图 9.8 中 . 









































9.7” 例 9.1 的 时 间 序 列 的 acf 和 pacf 图 . 


绘制 图 9.7 及 拟 合 ARIMA(0, 1,1)(1,2,1)? 模 型 的 程序 为 (包括 读 入 数据 ): 
x=scan("tax.txt'") 
tax=ts(x, frequency = 12, start = c(1995, 1)) 
par (mfrow=c(1,2));acf (tax) ;pacf (tax) 
(a=arima(tax,c(0,1,1),c(1,2,1))) 


下 面 是 给 出 了 MA 模型 的 一 个 系数 、 一 个 季节 AR 模 型 的 系数 及 一 个 季 
节 MA 模 型 系数 的 信 计 的 输出 : 


Series: tax 
ARIMA(O,1,1) (1,2,1)[12] 


Coefficients: 
mal sarl smal 
-0.8204 -0.5030 -0.5676 
Ss.e. 0.0630 0.1233 O01333 


sigma 2 estimated as 1.213e+09: log likelihood=~1223 
AIC=2454.01 AICc=2454.42 BIC=2464.51 


194 ”统计 学 :从 数据 到 结论 


对 以 后 12 个 月 进行 预测 及 产生 图 9.8 的 代码 为 
library (forecast) 
fit <- Arima(tax,c(0,1,1),c(1,2,1)) 
plot(forecast (fit,h=12)) 
注意 , 这 里 用 了 程序 包 forecast'!, 而 且 用 Arima() 函数 重新 做 了 拟 合 , 拟 合 


结果 当然 和 上 面 的 一 样 , 用 这 个 程序 包 主 要 是 为 了 画图 方便 , 图 中 绘 出 了 估计 的 置 
信和 带 . 


Forecasts from ARIMA(O,1,1)(1,2,1)[12] 
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图 9.8 ” 例 9.1 的 原始 序列 和 由 模型 得 到 的 拟 合 值 及 对 未 来 12 个 月 的 预测 图 . 


为 了 核对 ， 当 然 要 画 出 残 差 的 acf 和 pacf 的 条 形 图 来 看 是 否 还 有 什么 非 
随机 的 因素 存在 图 9.9 为 这 两 个 图 看 来 模型 的 选择 还 是 适当 的 .代码 
为 par (mfrow=c(1,2));acf (fit$res);pacf (fit$res). 
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图 9.9 例 9.1 数 据 拟 合 ARIMA(0,1,1)(1,2, 1)22 模 型 后 残 差 序列 的 acf 和 pacf 条 形 图 . 





1Rob J] Hyndman with contributions from Slava Razbash and Drew Schmidt (2012). forecast: 
Forecasting functions for time series and linear models. R package version 3.25. http://CRAN.R- 
project.org/package=forecast. 
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在 对 模型 的 检验 中 , 有 一 个 Ljung-Box 检 验 , 其 零 假设 为 残 差 的 各 阶 相关 (下 
面 式 中 写 的 最 大 k 阶 ) 等 于 零 , 即 


Ho:p1=p2=:*:= pxr= 0, 


这 里 p; 表 示 i 间 隐 的 acf， 图 9.10 表 示 了 对 于 例 9.1 拟 合 ARIMA(0,1,1)(1,2,1) ?3 模 
型 后 残 差 的 Ljung-Box 检 验 的 p 值 . 看 来 都 不 显著 . 也 就 是 说 , 至 少 在 k = 100 之 前 ， 
没有 证 据 表 明 , 残 差 还 有 各 阶 自 相关 性 . 绘制 该 图 的 R 代 码 如 下 : 


a=arima(tax,c(0,1,1),c(1,2,1)) # 重 复 前 面 的 拟 合 
B=NULL;for( i in 1:100) 
B=c(B,Box.test(a$res,lag=i,type="Ljung-Box")$p.value) 
plot(B,main="Ljung-Box tests", ylab="p-value', 
xlab="lag",pch=16,ylim=c(0,1));abline(h=.05,1ty=2) 


Ljiung-Box tests 


02 04 06 08 10 


0.0 





9.10 例 9.1 数 据 拟 合 ARIMA(0， 1, 1)(1, 2, 1)“ 模 型 后 残 差 序 列 的 Ljung-Box 检 验 的 p 值 . 


值得 指出 的 是 , 在 各 种 软件 中 都 有 自动 选择 ARMA 模 型 的 程序 或 函数 , 这 些 
程序 选择 所 使 用 的 准则 不 尽 相 同 , 选择 的 默认 范围 也 不 同 , 因而 结果 也 有 所 差 
异 . 下 面 就 用 R 程 序 包 forecast 所 包含 的 自动 拟 合 函数 auto. arima() 为 例 来 介 
绍 . 对 我 们 的 数据 输入 下 面 代码 : 


library (forecast) 
(al=auto .arima(tax)) 


马上 得 到 拟 合 结果 : 


Series: tax 
ARIMA(3,1,1)(0,1,0) {12] 


Coefficients: 
arl ar2 ar3 mal 
-0.0551 -0.0099 0.3470 -0.8881 
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S.e. 0.1194 0.1158 0.1098 0.0698 


sigma 2 estimated as 1.329e+09: log likelihood=-1359.98 
AIC=2729.97 AlICc=2730.52 BIC=2743.65 


在 其 默认 的 准则 和 计算 范围 内 , 它 选择 了 ARIMA(3,1,1)(0, 2,0)“ 的 模型 , 显 
然 和 我 们 手工 选 的 不 同 . 它 的 一 些 准则 (这 里 指 输出 的 AIC, BIC 等 等 . 它们 的 值 越 
小 越 说 明 模 型 在 这 些 准则 下 越 “ 好 ”, 本 书 不 予以 介绍 .) 不 如 前 面 手 工 选择 的 “好 ”. 
也 可 以 画 出 对 于 残 差 的 Ljung-Box 检 验 的 p 值 图 及 acf 和 pacf 图 (图 9.11), 似乎 都 不 
及 前 一 个 模型 (比如 一 些 p 值 较 小 , 一 些 pacf 线 过 长 等 等 ). 但 如 果 没 有 前 面 的 模型 ， 
谁 也 没有 理由 来 否定 第 二 个 模型 . 实际 上 , 所 有 的 模型 都 是 近似 , 有 些 模型 之 间 的 
好 坏 容 易 比 较 , 而 男 一 些 很 难 比较 , 这 也 是 同一 个 现象 可 能 会 有 多 个 模型 来 说 明 的 
情况 . 时 间 序 列 数学 的 假定 太 多 , 比如 线性 形式 、 正 态 性 等 等 , 而 这 些 假定 不 可 能 

被 证 明 , 也 不 易 判 断 . 


Liung~Box tests 




















-0.15 0.05 





图 9.11 例 9.1 数 据 拟 合 自动 选择 的 ARIMA(3,1,1)(0,2,0)“ 模 型 后 残 差 序列 的 Ljung-Box 检 
验 的 p 值 . 
9.4 “小结 


由 十 RR 的 所 有 有 关 的 语句 都 在 前 面相 关 地 方 写 明了 , 因此 这 里 不 再 重复 . 


9.4.1 本 章 的 概括 和 公 了 


本 章 引 进 了 时 间 序 列 的 概念 , 并 且 介绍 了 用 指数 平滑 和 ARIMA 模 型 来 解 时 间 
序列 的 建 模 和 预测 问题 . 这 两 个 模型 的 主要 公式 如 下 , 仅 供 有 兴趣 的 读者 参阅 . 


1. 指数 平滑 模型 


这 些 模型 中 有 a, ,6, 8 为 待 估计 参数 , y = 0 意味 着 斜率 为 常数 (趋势 无 变化 )， 
而 6 二 0 意味 着 没有 季节 成 分 , $ 和 减 幅 趋 势 有 关 , p 为 季节 周期 ; 对 于 时 间 序 
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列 X: 来 说 , 趋势 、 光 滑 后 的 序列 、 季 节 因 子 和 预测 的 序列 分 别 用 下 ,3 I 和 闫 , 表 
示 ; 为 外 , ei 为 残 着 Xi 一 六 


(1) 线性 趋势 可 加 季 和 模 型 (Linear trend， additive seasonality 
model) 为 
从; 一 bo+bt+t+li+e 
Ti = i it QVyer, 92 三 9 1 十 7 1 二 aet f= Ty 6(l — a)er, 
入 |, 一 St 十 1 十 pl 


(2) 线性 趋势 可 乘 季节 模型 (Linear trend，multiplicative seasonality 





oe 
一 一 (bo 十 Dit te 
1 Ti i1++oaYy ;Dt 一 S11 + Tita fi: = 1 p+ 6(1 — oo) 
元 ps ny De 


Xi = (i Ti)T pri 
(3) 指数 趋势 可 加 季节 模型 (Exponential trend, additive seasonality 


model) 为 
AX 一 bob 十 了 十 €r 
e 
了 一 了 7 1 十 on 可 
Xi = Silit Tptl 





Ss 一 ;17 1 十 Cetr, 1 一 li_» 十 6(1 一 Q)er, 


(4) 指数 趋势 可 乘 季 节 模 型 (Exponential trend, multiplicative season- 
ality model) 为 


及 | 一 (bob’ )T 十 Ct 


e 
Ti: = Ti_i1+ OT , 一 017 1 十 2 了 ; 
t—p t—Pp 


Li 一 Ti_» 十 0(1 一 oa] 总 ， X， 一 (SeTi) Ti p41 
t 





(5) 减 幅 趋势 可 加 季节 模型 (Damped trend，additive seasonality 
model) 为 


A 一 bo 十 Op 十 天 十 经 
一 0 的 -1 十 aa 一 g 十 let $= S91 BT a(2 — a)e, 
1 = Tp + 6l1— a(2 — a)Jes, 和 = Dt PTs Lepri 
(6) 减 幅 趋 势 可 乘 季节 模型 (Damped trend, multiplicative seasonality 
model) 为 
Xi = (bo + bbb + 
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Cr 
Cr 


Sr 


e 
; 3 = St1 + BT1 + (2 — oo ) 


t—p 


Tt = OT_1+aQ(a 一 由 十 1) 








I = 1 ,+61— a(2 -a2, X= (+9097 pr 


2. ARIMA 模 型 


平稳 时 间 序 列 罗 满足 的 条 件 : 对 所 有 t, 五 (X) = 几 而 且 自 协 方差 国 数 

Yts 一 Cov (Xi, 义 ,) 二 E(X 一 nL)(X, 一 4) 
仅仅 与 t 一 s 有 天 ， 因此 可 以 记 Yx 一 “tttk 一 Couv( Xi Xi+s). 对 于 平稳 序 
列 ， 自 相关 函数 (acf) 定 义 为 Corr(Xi, Xi = 二 Yr/Yo， 仿 相关 函数 (pacf) 定 
义 为 Cor7(X XXX 图 数 acf 和 pacf 的 点 图 可 以 用 来 帮助 识 
别 平稳 过 程 的 ARMA(p,9) 模 型 。 AR(p) 和 MA(g) 模 型 是 ARMA(p,g) 模 型 的 
特例 ， 而 ARMA(p,g) 模 型 又 是 ARIMA (p,q,g) 的 特例 (只 有 趋势 ,没有 季节 )， 
而 ARIMA(p,d,g) 又 是 既 有 趋势 又 有 季节 成 分 的 ARIMA(p,d,9)(P,D,Q@): 模 型 
的 特例 . 为 了 便于 描述 公式 , 定义 算 子 

BX, = X,_1, BX, = X,»,..., BIX, = X,. 

(1 一 B*)X, 一 Xi 一 Xr 
$(B)=1-0B- 6B —...— $B? 
0( 万) 一 一 0 万 一 0»,B* 一 一 0, BY? 


® AR(p) 模 型 : 六 | 一 091AXi 1 十 :十 RD 十 Qi， 或 者 用 等 价 的 算 子 符号 ， 
中 (已 )X = ar. 


® MA(q) 模 型 : 六, 一 4 一 bai 1 0 boat_y， 或 者 用 等 价 的 算 子 符号 ， 
0(B)a: 一 Xj. 
. ARMA lp, gq) 模 型 ;: XX， 一 DIAX1_1 十 … 十 OA pp 十 Qt 一 人 Q 1 一 一 入 ai 
或 者 用 等 价 的 算 子 符号 , $9(B)X, = 90(B)ar. : 
。ARIMA(p,d,9)(P,D,Q)* 模 型 : 
Bp(B')Gp(B)(1 — B)' (1 — B*) X= 0(B)OQ(B’)a,, 


这 里 更 , 6 是 类 似 于 ARMA(p, q) 模 型 中 的 算 子 %, 0, 只 不 过 是 描述 季节 序列 的 
罢了 , 它们 定义 为 

Bp(B:)=1- BB — DB’ 一 .一 全 DBP 

Qo(B)=1- OB — 0.B’—...— Qo0B®: 


9.5 习题 
1. 时 间 序 列 分 析 和 一 般 的 简单 回归 分 析 有 什么 不 同 ? 
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2. 直观 地 说 明 时 间 序 列 中 趋势 和 季节 对 序列 的 影响 . 举 出 季节 和 趋势 对 你 想象 出 
来 的 任何 时 间 序 列 的 影响 . 
3. 举 出 实际 中 可 能 出 现 的 时 间 序 列 . 


4. 重复 对 书 上 例题 的 计算 . 在 选项 上 做 一 些 变化 , 试 试 自动 选择 模型 的 程序 , 看 结 
果 有 什么 不 同 . 
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很 多 人 都 可 能 会 想 过 :“ 我 到 底 能 够 活 多 少 岁 ? ”一 些 医生 也 会 考虑 :“ 到 底 这 
个 新 疗法 能 使 得 这 类 绝症 患者 多 存活 多 久 ? ”或 者 “还 有 件 么 别 的 因素 和 存活 长 短 
有 关 ? ”之 类 的 问题 , 也 可 能 会 考虑 , 一 个 病人 在 什么 情况 下 的 危险 性 最 大 等 . 保 
险 公司 也 要 考虑 各 种 人 群 的 寿命 , 以 确保 其 人 寿 保险 或 医疗 保险 嗓 具 有 竞争 力 又 
有 利 可 图 . 在 工程 上 , 人 们 会 考虑 一 个 材料 , 一 个 原件 , 甚至 一 个 设备 的 寿命 是 多 
少 . 在 经 济 活动 中 , 企业 会 关心 员工 在 本 公司 能 够 工作 多 入 而 不 跳槽 , 什么 因素 会 
影响 跳槽 , 客户 的 忠诚 状况 能 持续 多 久 , 顾客 的 忠诚 度 会 受 什么 因素 影 啊 . 在 社会 
学 中 , 人 们 可 能 会 考虑 一 个 刑 满 释放 人 员 , 能 够 持续 多 和 久 不 再 犯罪 , 或 者 在 什么 情 
况 下 最 容易 再 次 犯罪 . 这 些 都 属于 统计 中 生存 分 析 (survival analysis) 的 研究 范 
围 , 是 研究 一 个 事件 在 发 生 之 前 以 什么 概率 持续 多 入 的 问题 , 或 者 是 什么 时 候 ， 以 
什么 概率 一 个 事件 会 发 生 . 本 章 主 要 介绍 生存 分 析 的 一 些 基 本 知识 , 并 通过 数据 
例子 来 介绍 如 何 处 理 生 存 分 析 数 据 . 

大 家 都 明白 , 对 于 某 一 特定 个 体 “ 能 够 存活 多 久 ” 这 一 类 的 问题 , 任何 负责 任 的 
人 都 不 会 作出 确定 的 回答 . 但 是 对 于 具有 某 些 特性 的 一 类 人 和 群 , 则 可 以 通过 对 数据 
的 分 析 来 近似 地 得 到 活 过 一 定时 间 的 概率 . 如 果 关 心 不 同 治疗 手段 的 效果 , 还 可 以 
通过 数据 分 析 来 比较 这 些 方法 , 看 它们 的 有 效 性 , 还 能 建立 可 以 预测 的 量化 的 模 
型 . 为 此 , 需要 引进 下 面 一 些 基本 概念 . 

在 生存 分 析 中 , 人 们 往往 希望 知道 存活 过 时 间 t 的 概率 , 这 就 是 所 谓 的 生存 函 
数 (survival function), 记 为 S(t), 显然 它 等 于 1 减 去 生存 时 间 不 超过 t 的 概率 . 
记 FF(t) = P(T < 为 寿命 不 超过 时 间 t 的 概率 , 则 S(t) = 1 一 了 f(t). 还 要 定义 一 个 
在 t 时 刻 处 (附近 ), 对 死亡 发 生 的 可 能 性 进行 度量 的 函数 , 称 为 危险 函数 (hazard 
function), 用 h(t) 表 示 , 它 实际 上 是 一 In S(t) 的 关于 t 的 叶 数 , 代表 了 在 酒 过 了 时 
间 t 的 条 件 下 , 在 t 时 刻 处 死亡 的 (条 件 ) 概 率 密度 函数 , 或 


.P(t<T<t+AHT>t) ,F(t+At)—rF(t) 
ho) = lm At -A FA 
flt) _d 


一 S(t) 一 zz nb 


累积 危险 函数 为 五 (t) = 太 Au)du. 生存 函数 、 和 危险 函数 、 累 积 危险 函数 在 数学 
上 是 等 价 的 , 知道 其 中 之 一 , 就 可 以 推导 出 其 他 函数 .生存 函数 和 和 危险 函数 可 以 形 
象 地 描述 存活 过 某 个 时 间 的 概率 以 及 在 各 个 时 间 段 危险 程度 . 下 面 先 看 一 个 很 有 
名 的 例子 (Box and Cox, 1964). 


例 10.1 毒药 数据 (poison.txt) Box and Cox(1964)! 通过 该 数据 引入 了 
回归 中 的 Box-Cox 变 换 . 该 数据 是 一 个 生存 分 析 数 据 ， 这 个 数据 源 于 一 个 两 
个 因素 , 3 x 4 水 平 的 动物 实验 , 2 个 因素 ( 自 变量 ) 为 毒药 (Poison,， 3 个 水 平 ), 处 

1Box, G. E. P., and Cox, D. R. (1964). An analysis of transformations (with Discussion), J., R. 
Statist, Soc. B, 26, 211-252. 
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理 (Treatment, 4 个 水 平 ), 因 变 量 为 动物 的 生存 时 间 (Time, 单位 : 10 小 时 ), 每 种 
变量 的 搭配 用 于 随机 选择 的 4 个 动物 (共有 48 个 观测 ). 从 这 个 数据 , 可 以 很 容易 算 
出 在 每 个 时 间 , 在 不 同 条 件 下 存活 的 动物 比例 , 这 也 就 是 对 生存 函数 的 估计 . 类 似 
地 , 也 可 以 信 计 和 危险 函数 .由 于 数据 的 离散 型 , 这 里 估计 出 来 的 函数 是 阶梯 状 的 . 
图 10.1 是 该 数据 对 生存 函数 在 各 种 情况 下 的 估计 的 点 图 . 其 中 (a&) 为 全 部 数据 一 起 
的 图 (虚线 为 置信 带 )，(b) 为 按照 不 同 的 处 理 所 做 的 图 ， (c) 为 按照 不 同 毒药 所 做 的 
图 . 这 些 图 的 横 坐 标 为 生存 的 时 间 , 而 纵 坐 标 是 生存 函数 的 大 小 . 显然 , 随 着 时 间 
流逝, 生存 的 概率 应 该 递减 , 因此 这 种 曲线 都 是 呈 下 降 趋势 ， 从 图 10.1 可 以 看 出 不 
同 处 理 和 不 同 毒药 对 生存 函数 的 影响 . 


{a) All Cases (bj By Treatmen ft {c) By Poison 









































10.1 根据 例 10.1 数 据 所 产生 的 生存 函数 图 , 其 中 (a) 为 全 部 数据 一 起 的 图 (虚线 为 置信 带 )， 
(b) 为 按照 不 同 的 处 理 所 做 的 图 , (c) 为 按照 不 同 毒药 所 做 的 图 . 可 以 看 出 不 同 处 理 和 不 同 毒药 对 
生存 函数 的 影响 . 


图 10.1 是 用 程序 包 survival! 的 函数 survfit() 所 绘 , R 代 码 (包括 输入 数据 ) 如 下 : 


=read.table("poison.txt",header=T) # 读 入 数据 
library(survival) ;k=rep(1,48) 
par (mfrow=c (1 ,3)) 
fitO=survfit (Surv(Time,k)“*1,data=w) 
plot (fit0 ,xlab="Time" ,ylab="Survival Function') 
title("(a) All] Cases'") 
fiti=survfit(Surv(Time,k) “Treatment ,data=w) 
plot (fit1,xlab="Time",ylab="Survival Function",lty=1:4) 
title("(b) By Treatment") 
legend("topright",paste("Treatment-—",1:4),1ty=1:4) 
fit2=survfit(Surv (Time,k)“Poison,data=w) 
plot (fit2,xlab="Time" ,ylab='"Survival Function" ,TIty=1:3) 
title("(c) By Poison'") 
legend("topright",paste("Poison-",1:3),1ty=1:3) 


iTerry Therneau (2012). A Package for Survival Analysis in S. R package version 2.36-14. 
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一 般 来 说 , 数据 中 可 能 会 有 所 谓 的 删 失 的 (censored) 观 测 值 , 也 就 是 说 , 有 
些 对 和 象 在 实验 过 程 中 因为 种 种 原因 失去 了 记录 (在 某 个 时 刻 后 消失 ). 以 医药 界 的 
动物 实验 为 例 , 这 种 删 失 可 能 源 于 动物 死 于 与 实验 无 关 的 原因 , 以 医院 病人 为 例 ， 
病人 可 能 自行 出 院 , 无 法 跟踪 调查 等 等 . 例 10.1 没 有 删 失 , 下 面 看 一 个 有 删 失 观 测 
值 的 数据 . : 


例 10.2 口 咽 癌 数据 (pharymnx.txt，pharynxl.txt). 这 个 来 自 Kalbfleisch 
and Prentice (1980) 的 数据 !， 是 基于 美国 Radiation Therapy Oncology Group 
的 几 个 机 构 针对 口 咽 车 干 位 置 的 鳞 状 细胞 辣 的 临床 试验 . 试验 分 成 两 组 , 一 组 仅 
使 用 放疗 (TX=1), 另 一 组 放 化 疗 缘 用 (TX=2). 原始 数据 为 195 x 13 的 方 阵 . 这 
个 数据 是 典型 的 生存 分 析 数 据 , 可 以 用 生存 分 析 的 方法 , 比如 Cox 比 例 危 险 回 归 模 
型 (Cox proportional hazards regression model), 也 可 以 用 其 他 回归 方法 . 下 表 
是 变量 情况 . 


例 10.2 口 咽 癌 数 据 变量 情况 
描述 





















性 质 





编号 哑 元 型 定性 变量 
INST 机 构 代 码 哑 元 型 定性 变量 
SEX 性 别 (1,2) 三 元 型 定性 变量 
TX 实验 代码 (1: 标 准 ,2: 处 理 ) 呈 元 型 定性 变量 
GRADE 和 正常 细胞 的 区 别 度 哑 元 型 定性 变量 
AGE 年 龄 定量 变量 
COND 身体 状况 哑 元 型 定性 变量 
SITE 病变 位 置 旺 元 型 定性 变量 
T.STAGE 癌症 工分 期 哑 元 型 定性 变量 
N.STAGE “| 癌症 NN 分 期 本 元 型 定性 变量 
ENTRY.DT | 进入 试验 日 期 整数 
STATUS 删 失 (0: 右 删 失 , 1: 死 亡 ) 哑 元 型 定性 变量 
TIME 如 未 删 失 , 则 是 存活 时 间 ， 整数 


否则 是 最 后 记录 时 间 ( 天 数 ) 


读者 可 能 发 现 , 这 个 数据 中 的 CASE 和 ENTRY.DT 不 能 参与 建 模 , 应 该 删 去 . 
在 数据 探索 分 析 中 还 发 现 有 两 个 观测 值 有 缺失 , 也 予以 删除 . 此 外 , COND 有 些 水 
平 记录 太 少 , 予以 合并 . 这 样 整 理 过 的 数据 就 是 193 x 11 的 方 阵 (pharynxl.csv). 
除了 TIME 和 AGE 之 外 都 是 分 类 (定性 ) 变 量 . 变量 TIME 是 这 里 关心 的 因 变 量 . 

生存 数据 都 是 按照 一 定格 式 记 录 的 , 根据 记录 , 可 以 看 出 每 个 时 间 有 多 少 死 
亡 , 有 多 少 存活 , 各 自 的 比例 是 多 少 等 等 , 这 些 记 录 被 称 为 生命 表 (Life Table). 
下 面 对 生命 表 了 予以 介绍 . 


1Kalbfleisch, J. D. and Prentice, R. L. (1980). The Statistical Analysis of Failure Time Data, 
John Wiley 点 Sons. 可 从 网 站 http://www.umass.edu/statdata/statdata/stat-nonlin.html 下 载 . 
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10.1 对 生命 数据 的 简单 描述 


生命 表 (Life Table) 是 对 生存 分 析 数 据 的 一 种 数量 和 图 形 的 描述 . 通 单 , 生 
命 表 每 一 行 代 表 一 个 时 间 段 , 而 该 行 的 数据 最 少 包 括 了 在 该 时 间 段 开始 时 有 多 
少 存活 的 对 象 , 有 多 少 死 亡 的 对 象 , 有 多 少 删 失 的 对 象 , 以 及 最 基本 的 一 些 对 
生存 函数 和 和 危险 函数 在 该 时 间 段 的 值 的 估计 . 由 于 对 于 删 失 等 观测 值 的 处 理 方 
法 不 同 , 对 于 简单 的 生命 表 有 各 种 改进 , 其 中 包括 Kaplan-Meier 方 法 、Fleming- 
Harrington 方 法 等 ， 下 面 的 表格 是 根据 例 10.2 数 据 按照 Kaplan-Meier 方 法 所 产 
生 的 生命 表 的 前 10 行 (一 共 180 行 )， 这 里 一 共 三 个 表 : 第 一 个 是 对 照 组 和 处 理 组 
混合 ( 即 全 部 ) 数 据 的 生命 表 , 第 二 个 是 对 照 组 (TX=1) 的 生命 表 , 第 三 个 是 处 理 
组 (TX=2) 的 生命 表 . 生命 表 的 描述 则 为 如 图 10.1 那 样 的 图 形 , 对 于 例 10.2 数 据 相 
应 的 三 个 图 形 在 图 10.2 中 . 但 在 前 计算 机 时 代 , 这 种 图 形 则 按照 生命 表 手 工 画 成 . 


例 10.2 分 三 种 情况 的 生命 表 的 前 10 行 


混合 数据 TX=2 
ts rr ec sl|t rec st reocs 
11 193 2 0 0.99 0 0. 95 2 0 0.98 
15 191 1 0 0.98 1 0 93 1 0 0.97 
38 190 1 0 0.98 0 1 92 1 0 0.96 
74 189 1 0 0.97 1 0 91 1 0 0.95 
81 188 1 0 0.97 2 0 90 1 0 0.94 
89 187 1 0 0.96 2 0 89 1 0 0.93 
90 186 0 1 0.96 1 0 88 1 0 0.92 
94 185 1 0 0.96 1 0 87 1 0 0.91 
99 184 2 0 0.95 1 0 86 1 0 0.89 
105 182 1 0 0.94 1 0 85 1 0 0.88 





上 表 中 的 t(time) 代 表 时 间 , r(risk) 代 表 在 t 时 刻 还 没有 死 的 人 , elevent) 代 表 
那个 时 刻 (时 间 段 ) 发 现 死亡 的 人 , c(censor) 代表 那个 时 间 段 删 失 的 人 数 s(survival 
function) 代 表 利 用 某 种 方法 (这 里 是 Kaplan-Meier 方 法 ) 计 算 的 生存 函数 . 


图 10.2 是 由 下 面 代 码 男 出 : 


u=read.csv("pharynx1 .txt",sep=",")# 读 入 数据 

library(survival) 

fitO=survfit(Surv(TIME, STATUS) ~ 1, data=u ,type="kaplan-meier") 
fit=survfit(Surv (TIME, STATUS) ~ TX, data=u ,type="kaplan-meier'") 
par (mfrow=c (1 ,2)); 

plot (fit0,con=F,xlab="Time",ylab="Survival Function") 

title("All Data") 

plot (fit,1lty=1:2,xlab="Time",ylab="Survival Function") 
title("Comparison");legend('"topright",c("TX=1", "TX=2") ,lty=1:2) 
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All Data Comparison 











IF 
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Survival Funct 
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10.2 ” 例 10.2 全 部 数据 , 及 比较 TX=1 和 TX=2 的 生存 函数 图 


这 里 不 给 出 形成 生命 表 的 程序 ( 放 到 后 面 小 结 中 ), 这 是 因为 现在 用 不 着 再 去 
还 原 过 去 作为 原始 数据 的 生命 表 , 生命 表 是 数据 分 析 的 原始 依据 , 它 仅 仅 给 出 了 生 
存 函 数 的 估计 . 从 图 10.2 的 右 图 可 以 看 出 , 化 疗 (TX=2) 的 生存 函数 在 绝 大 部 分 时 
间 中 是 在 对 照 组 的 生存 函数 之 下 . 


10.2 Cox 比例 危险 模型 


回归 的 方法 对 于 统计 推断 是 十 分 重要 的 , 如 何在 生存 数据 的 分 析 上 建立 类 
似 于 回归 那样 的 模型 呢 ? 人 们 一 般 希 望 生存 函数 能 表示 为 某 些 相关 的 目 变 量 的 
一 个 函数 . 在 例 10.1 中 自 变 量 就 是 处 理 和 毒药 , 例 10.2 中 的 自 变 量 束 是 判别 治疗 
组 (TX=2) 和 对 照 组 (TX=1) 的 哑 元 变量 TX 以 及 其 他 变量 , 比如 年 龄 、 身 体 状 况 
等 等 . 一 般 来 说 , 用 zx 表示 自 变量 (变量 可 能 是 向 量 , 即 有 多 个 自 变 量 ), 用 S(tIz) 表 
示 在 时 间 t 的 生存 函数 , 这 里 的 x 表示 可 能 有 关 的 自 变 量 , 用 ,S50(t) 表 示 得 估计 的 基 
本 生存 函数 (baseline survival function), 它 和 自 变量 z 无 关 . Cox 比例 危险 模型 为 

S(tlz) = [So 人 
这 里 的 8 为 回归 系数 . 这 里 的 线性 部 分 ZL 6 是 在 So(t) 的 指数 上 面 再 取 以 e 为 底 的 指 
数 . 当然 该 模型 可 以 写成 
In(— ln S(tlz)) = 2768 + In Holt) 


的 线性 形式 . 这 里 基本 累积 危险 函数 H(t) 是 基本 危险 函数 ho(t) 的 积分 
Ho = | ho(u)au. 


0 
这 里 下 标 为 0 的 , 名 字 冠 以 “基本 ”的 ,50(t), ho(t) 和 Ho(t) 都 是 和 zx 无关 的 . 细节 可 参 
见 本 章 后 面 的 公式 ， 注 意 只 要 得 到 五 (t),h(t) 和 S(t) 中 之 一 , 就 可 以 得 到 其 他 的 
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Ho(t), holt) 和 ,So(t) 的 关系 也 类 似 . 由 此 可 以 得 到 比例 危险 模型 的 其 他 形式 : 
Inh(tlz) = Inho(t)+ £18 


或 者 

h(t) = ho(t) exp(z” 8) 
根据 统计 软件 , 可 以 很 容易 得 到 对 回归 系数 8 的 估计 . 下 面 是 用 Cox 比 例 危 险 模型 
拟 合 例 16.1 数 据 的 代码 , 其 中 最 后 一 行 代码 是 估计 基本 累积 危险 函数 Ho( 图 形 在 
图 10.3 中 ): 
w=read.table("poison.txt",header=T) 
for(i in 1:2)w[,i]=factor(w[,il]) 
k=rep(1,48) ;fit=coxph (Surv (Time,k)"™.,data=w) ;summary (fit) 
bh=basehaz (fit);plot (hazard“time,bh,type="]1") 


部 分 输出 为 : 








hazard 


time 


10.3 ”由 例 10.1 根 据 Cox 模 型 所 估计 的 基本 累积 危险 应 数 Ho(t). 


coef exp(coef) se(coef) Z Pr(>|z|) 
Poison2 0 .92862 2.53102 0.43310 2.144 0.032 
Poison3 4.78337 119.50641 0.76088 6.287 3.25e-10 


Treatment2 -3.52134 0.02956 0.60733 -5.798 6.71e-09 
Treatment3 -1.17445 0.30899 0.45619 -2.574 0.010 
Treatment4 -2.90340 0.05484 0.58878 -4.931 8.17e-07 


如 果 令 a (i = 1,2,3) 表 示 毒 药 (Poison) 的 效应 , 用 B (7 = 1,2,3,4) 表 示 处 
理 (treatment), 那么 上 面 的 输出 表明 我 们 的 Cox 模 型 为 
ln( 一 mttlz)) = oa; + Bj;+ ln Holt), i = 1,2,3, 7 = 1,2,3,4 
这 里 al = 0, as = 0.929, as = 4.783, B1 = 0, 82 = —3.521, Bs = —1.174, 64 = 
一 2.903. 一 共有 3 x 4 = 12 个 方程 . 
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10.3 小结 


10.3.1 本 章 的 概括 和 公式 
1. 生存 函数 和 危险 函数 


本 章 的 基本 函数 为 互相 关联 的 生存 函数 S(t)、 和 危险 函数 h(t)、 累 积 危 险 函 
数 瓦 (办 (基本 生存 函数 、 基 本 危险 函数 和 基本 累积 危险 函数 的 关系 类 似 ). 生存 函 
S(t) = P(T>t)=1- F(T<t),t>0, 


这 里 7 为 作为 随机 变量 的 生存 时 间 , F(t) 为 的 累积 分 布 函 数 ， 用 f(t) 表 示 其 密度 
函数 . 危险 函数 则 定义 为 


P(t <T<t+AtT>t) ,F(t+At)— F(t) 
AD) = Am At -AD TT F(A 
4 


此 外 , 还 有 一 些 很 容易 推导 出 来 的 关系 , 比如 
H(t) = — lnS(t); $(t) = exp(—H(t)). 


2. Cox 比例 危险 模型 
用 Stlz) 表 示 和 自 变 量 z 有 关 的 生存 函数 , 用 So(t) 表 示 与 日 变量 无 关 的 答 估 计 
基本 生存 函数 . Cox 比 例 危险 模型 为 
S(tlz) = [So()] PE © 
这 里 的 6 为 回归 系数 . 这 里 的 线性 部 分 x 了 7 是 在 So(t) 的 指数 上 面 再 取 以 e 为 底 的 指 
数 . 当然 该 模型 可 以 写成 
In(— ln S(t|x)) = zx’ B+ ln Holt) 
或 者 : 
h(tlz) = holt) exp(z 6) 
或 其 等 价 形式 
Inh(tlz) = Inho(t)} + xz* 6. 


之 所 以 有 “比例 危险 模型 "这 个 词 是 因为 对 于 不 同 的 协 变量 zj; 和 z,, 该 模型 满足 危 
险 汶 数 的 比例 h(t|z;) /h(tlz;) 与 无 关 . 类 似 于 没有 z 的 情况 
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10.3.2 ”及 语句 的 说 明 


使 用 程序 包 survival 的 Survfit() 函 数 及 coxph() 函 数 时 的 因 变 量 部 分 
不 是 单纯 的 时 间 ， 而 是 Surv(Time，status)， 这 里 的 Time 是 指 生 存 时 间 ， 
而 status( 有 时 为 censor， 依 数据 变量 名 字 代 码 而 定 ) 为 删 失 状况 .Surv() 图 
数 要 求 删 失 为 数值 型 (实际 上 是 旺 元 定性 变量 )0,1 变 量 , 0 表示 删 失 , 1 表示 没有 删 
失 . 

在 对 例 10.2 的 三 个 生命 表 ( 全 部 数据 , TX=1 和 TX=2) 的 再 现时 , 使 用 了 下 面 
语句 (在 输入 了 数据 之 后 ): 


library (survival) 

fO=survfit(Surv(TIME,STATUS)“1,data=u ,type="kaplan-meier") 
fl=survfit(Surv(TIME,STATUS) “1,data=u[u$TX==1,] ,type="kaplan-meier") 
f2=survfit (Surv (TIME, STATUS) “1,data=u[u$TX==2, |] ,type="kaplan—meier") 
a0=cbind (t=f0$time,r=fO$n.risk,d=f0O$n.event,c=f0$n.censor,s=fO$surv) 
al=cbind (t=f1i$time,r=fi$n.risk,d=fi$n.event,c=fi$n.censor,s=f1i$surv) 
a2=cbind(t=f2$time ,r=f2$n.risk,d=f2$n.event,c=f2$n.censor,s=f2$surv) 


这 里 的 a0，al，a2 就 是 所 求 的 三 个 生命 表 . 其 中 type="kaplan-meier" 意 味 
着 Kaplan-Meier 方 法 , 也 可 以 选择 type="fleming-harrington". 


10.4 习题 
1. 重复 对 例 10.1 数 据 的 计算 , 改动 一 些 选项 , 尽 可 能 解释 输出 图 表 的 含义 . 
2. 用 Cox 比 例 危 险 模型 拟 合 例 10.2 数 据 , 并 解释 结果 . 
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第 十 一 章 ”指数 简介 
11.1 指数 漫谈 


为 了 解 一 年 来 物价 的 总 体 变 化 , 有 必要 去 了 解 每 一 项 商品 和 服务 的 价格 变化 
吗 ? 其 实 , 只 要 看 一 看 公布 的 相关 的 价格 指数 (price index) 束 可 以 了 ， 这 是 因 
为 计算 物价 指数 的 机 构 已 经 把 不 同时 期 的 各 种 商品 和 服务 (比如 交通 、 娱 乐 、 住 
房 、 食 品 和 饮料 、 医 疗 、 服 装 等 ) 的 价格 和 消费 按照 一 些 程序 进行 了 调查 . 他 们 把 
这 些 调查 数据 输入 计算 机 , 根据 某 些 公式 进行 计算 , 并 且 和 过 去 的 某 一 标准 进行 对 
比 . 然后 在 经 过 一 些 核对 及 调整 之 后 公布 对 比 结果 , 也 就 是 价格 指数 . 因此 价格 指 
数 就 是 一 种 反映 价格 总 体 变 化 情况 的 综合 变量 . 

从 统计 学 的 角度 , 指数 (index number) 就 是 代表 所 关心 的 变量 的 一 些 统计 
量 . 在 经 济 领域 , 指数 多 为 一 些 统 计 观 测 值 的 加 权 平 均 , 而 且 用 过 去 类 似 的 观测 值 
平均 作为 基础 , 以 比例 或 百分比 的 形式 出 现 . 上 面 说 过 的 价格 指数 就 有 这 样 的 形 
式 . 综合 指数 并 非 经 济 学 领域 所 专 有 的 . 比如 , 有 衡量 气象 对 人 类 或 动物 情绪 、 行 
为 和 生理 影响 的 生物 气象 指数 (bioweather index), 有 天 文学 家 衡量 星体 颜色 
和 温度 的 颜色 指数 (color index), 有 研究 温度 和 湿度 对 人 体 和 舒适 度 影响 的 温度 
湿度 指数 (Temperature-Humidity Index) 等 等 . 

这 些 指 数 并 不 都 是 通过 简单 的 算术 或 几何 (加 权 ) 平 均 和 比例 而 来 的 ， 有 些 计 
算 方法 很 复杂 有 些 很 简单 . 方法 也 不 全 一 样 . 比如 每 个 股票 市 场 都 有 它 上 自己 的 
衡量 股票 价格 的 一 些 指 数 (虽然 大 同 小 异 ). 比如 , 道琼斯 指数 、 日 经 指数 、 和 恒生 
指数 、 纳 斯 达 克 指 数 、 伦 敦 金 融 时 报 指 数 、 上 证 综合 指数 、 上 证 指数 、 深 证 
综合 指数 、 深 圳 成 分 股指 数 等 等 . 为 了 可 比 性 , 各 国 也 采取 一 些 同 样 (或 类 似 ) 办 
法 所 计算 的 指数 , 比如 国内 生产 总 值 (GDP) 等 .此 外 还 有 其 他 没有 “指数 ”名 
称 但 也 被 认为 是 指数 的 统计 量 : 比如 可 以 用 来 反映 贫 富 差距 的 Gini 系 数 (Gini 
coe 生 cient). 在 我 国 的 计划 经 济 时 期 , 为 了 种 种 目的 , 从 苏联 引进 了 大 量 的 经 济 
指数 , 也 自己 编制 了 许多 . 这 些 指数 目前 多 数 已 经 成 为 历史 ， 

哪些 统计 量 被 称 为 指数 , 并 没有 什么 绝对 限制 , 依 习 惯 而 定 ， 当然 , 不 存在 完 
美的 指数 . 即使 对 同一 个 对 象 和 同一 个 目的 , 可 能 会 出 现 不 同 的 指数 : 只 不 过 各 和 目 
有 各 自 的 特点 时 了 . 许多 指数 的 设计 有 很 多 不 足 之 处 , 但 由 于 人 们 的 习惯 , 仍然 在 
使 用 : 并 没有 把 它们 淘汰 : 最 多 进行 一 些 改进 而 已 . 任何 人 都 可 能 编制 性 质 优秀 的 
指数 , 但 是 有 没有 人 要 用 你 编制 的 指数 则 是 另外 一 件 事 了 . 

”本 章 仅 仅 对 一 些 常 用 指数 及 有 关 概 念 进行 介绍 ,这 里 不 要 求 高 等 数学 的 知识 ， 

但 可 能 有 一 些 不 超过 小 学 四 则 运算 水 平 的 简单 公式 . 


11.2 ”价格 指数 


各 个 国家 和 地 区 都 在 编制 自己 的 价格 指数 , 有 些 指 数 仅仅 是 针对 部 分 产品 而 
设计 和 计算 的 . 要 想 知道 两 个 时 期 的 价格 的 差距 , 如 何 来 计算 呢 ? 你 马上 会 说 , 可 


以 用 现在 的 价格 除 以 过 去 的 价格 . 不 错 , 这 就 是 价格 指数 的 基础 . 比如 现在 一 公斤 
面粉 是 P = 2 元 , 去 年 是 记 = 1.6 元 , 相对 价格 就 是 Pi/P = 2/1.6 = 1.25. 为 了 
去 掉 分 数 , 就 乘 以 100, 得 到 ( 百 分 之 )125. 但 是 , 单价 并 不 代表 你 在 面粉 上 花 多 少 
钱 . 应 该 把 你 买 了 多 少 公斤 面粉 考虑 进来 . 但 是 用 现在 的 购买 量 还 是 用 过 去 的 购 
买 量 计算 , 就 产生 了 不 同 的 结果 . 当然 , 如 果 考 虑 食品 价格 , 就 不 能 只 考虑 面粉 一 
项 . 假定 作为 比较 基础 的 某 年 茶 商 品 的 单价 (或 今年 的 单价 ) 用 户 ( 或 忆 ) 表 示 , 相应 
的 消费 量 用 Qo( 或 Qi) 表 示 . 这 里 有 四 种 计算 总 消费 量 的 办 法 : 


1. 各 种 商品 的 当年 总 消费 为 > PoQ0; 

2. 按照 今年 的 价格 和 当年 的 消费 量 的 总 额 为 > P80; 
3. 按照 今年 的 价格 和 今年 的 消费 量 的 总 额 为 > 已 Qi 
4. 按照 当年 的 价格 和 今年 的 消费 量 的 总 额 为 2 已 Qi 


看 起 来 有 些 罗 喧 , 但 这 是 两 种 价格 指数 的 计算 基础 . 一 种 称 为 Laspeyres 价 格 指 
数 (Laspeyres price index), 另 一 种 称 为 Paasche 价 格 指数 (Paasche price 
index). 这 些 是 Laspeyres( 类 ) 指 数 和 Paasche( 类 ) 指 数 关 于 价格 的 形式 ; 这 两 个 
价格 指数 的 定义 分 别 为 po 
. ee {V0 
Laspeyres 价格 指数 = Bo (100) 
和 


PQ 
Paasche 价格 指数 = Po, Fo, 


它们 的 区 别 在 于 : 分 子 分 母 是 全 部 使 用 过 去 的 消费 量 @o, 还 是 全 部 使 用 目前 的 
消费 量 @,， 很 难 从 理论 上 说 哪 一 个 定义 就 一 定 比 男 一 个 优越 , 但 实际 操作 时 可 
能 有 所 不 同 . 显然 , 对 于 Laspeyres 价 格 指数 , 作为 计算 不 变 的 > Qo 的 基础 年 份 
就 不 能 太 特 殊 了 , 需要 有 典型 性 . 作为 这 两 个 指数 的 几何 平均 的 Fisher 理 想 指 
数 (Fisher”s ideal index) 可 以 看 成 为 这 两 个 指数 的 折 中 方案 . 它 定 义 为 


Fisher 理 想 指数 = v (Laspeyres 价格 指数 ) x (Paasche 价格 指数 ). 


11.3 数量 指数 (生活 标准 指数 ) 

要 想 度 量 数量 变化 , 消费 量 在 上 面 公式 的 分 子 中 就 一 定 要 用 Qi, 而 在 分 母 中 
用 Qo. 但 单价 应 该 一 样 . 这 种 指数 称 为 数量 指数 (quantity index), 用 来 度量 生 
活 标 准 在 量 上 的 提高 , 这 时 , 关于 数量 的 Laspeyres 指 数 和 Paasche 指 数 分 别 为 


， _ 续 . _ 2 Pr 
Laspeyres 数量 指数 = BO, (100) 


(100). 





和 


， PQ, 
Paasche 数量 指数 == 2 PQ 100). 
A pao) 
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而 Fisher 理 想 指 数 仍然 是 这 两 个 的 几何 平均 . 
11.4 总 花费 指数 


要 想得到 总 消费 的 变化 , 分 子 的 单价 和 消费 量 都 应 该 是 目前 的 , 而 分 母 的 单 
价 和 消费 量 都 应 该 是 作为 基准 的 那 一 年 的 . 这 样 , Laspeyres 指 数 、Paasche 指 数 
及 Fisher 理 想 指数 就 完全 一 样 了 , 统称 为 总 花费 指数 (total cost index). 显然 


总 花费 指数 = 二 (100). 
De n0 


按照 常理 , 价格 指数 、 数 量 指 数 及 总 花费 指数 应 该 满足 下 面 关系 : 
价格 指数 x 数量 指数 = 总 花费 指数 . 


但 是 在 上 面 三 个 指数 中 , 如 果 利 用 这 个 乘积 公式 , Laspeyres 指 数 过 分 估计 总 花费 
指数 , 而 Paasche 指 数 又 低估 了 它 ， 只 有 Fisher 理 想 指 数 总 是 满足 这 个 乘积 关系 . 
因此 才 有 “理想 ”的 称号 . 


11.5 一 两 个 常见 的 经 济 指数 


这 里 并 不 想 全 面 介绍 各 国都 计算 的 所 有 指数 . 下 面 仅仅 介绍 一 两 种 新 闻 里 出 
现 较 多 的 经 济 指 数 , 让 大 家 有 个 感性 认识 . 


1. 消费 者 价格 指数 (consumer price index, CP1) 


世界 上 有 100 多 个 国家 都 计算 CPI. 虽然 各 个 国家 为 计算 CPI 所 使 用 的 方法 和 
覆盖 的 范围 相差 很 大 , 但 总 有 很 多 共同 的 地 方 . 联合 国 每 年 都 在 其 月 度 统计 通 
报 (Monthly Bulletin of Statistics) 中 公布 各 个 国家 的 CPIL. 

在 美国 , 这 是 媒体 中 最 经 常 出 现 的 价格 指数 . 每 个 月 经 白宫 认可 由 关 国 苑 动 
统计 局 (Bureau of Labor Statistics) 公 布 一 次 . 它 是 一 个 Laspeyres 类 型 的 指数 ， 
CPI 抽 取 各 种 货物 和 服务 的 价格 , 包括 食品 、 房 租 和 房价 、 能 源 、 服 效 、 交 通 、 
医药 等 . 每 一 个 部 分 也 都 公布 自己 的 指数 , 这些 部 分 按照 重要 性 加 权 . 各 个 区 域 
甚至 城市 也 都 有 自己 的 CPI. 计算 CPI 的 品种 数量 通常 是 250 到 450 种 之 间 . 对 于 小 
国家 或 贫穷 国家 , 品种 数量 常常 只 有 100 到 150 种 . 

美国 的 CPI 只 覆盖 薪金 收入 者 , 无 论 是 在 一 个 家 庭 还 是 单独 生活 都 算 . 而 身 国 
的 CPI 履 盖 所 有 的 家 庭 , 但 不 包括 那些 户主 的 收入 超过 某 一 界限 的 家 许 , 也 不 包括 
那些 至 少 四 方 之 三 的 收入 来 自 退 休 金 的 人 . 很 多 国家 在 计算 CPI 时 , 只 考虑 城市 居 
民 , 甚至 少数 城市 ， 比 如 澳大利亚 只 考虑 各 州 首府 , 墨西哥 只 考虑 首都 墨西哥 城 . 
但 有 些 则 包括 得 广泛 些 . 比如 日 本 包括 了 所 有 城乡 家 庭 , 但 不 包括 单 人 家 许 和 家 
长 是 农民 和 渔民 的 家 庭 . 由 于 这 些 限 度 , 为 了 更 广泛 的 需要 , 比如 要 度量 国家 福利 
的 变化 , 就 需要 包括 所 有 人 的 更 加 复杂 的 指数 , 比如 包括 单 人 家 庭 、 乡 村 家 庭 和 城 
市 高 收入 家 许 等 等 . 
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2. 批发 价格 指数 (wholesale price index) 


中 国 目 前 还 没有 批发 价格 指数 ， 该 指数 度量 制造 者 和 批发 商 所 给 出 的 价格 的 
变化 . 它 可 能 衡量 到 达 零 售 商 之 前 的 一 些 有 选择 的 阶段 的 货品 价格 变化 . 它 包括 
或 者 制造 商 对 批发 商 所 提出 的 价格 , 或 者 批发 商 对 零售 商 所 提出 的 价格 , 或 者 是 这 
二 者 及 其 他 中 间 人 价格 的 组 合 . 

在 美国 , 批发 价格 指数 度量 所 有 流入 初级 市 场 的 国产 或 进口 商品 的 价格 变化 . 
初级 市 场 是 商品 第 一 次 以 相当 数量 出 售 的 市 场 . 商品 在 其 各 个 加 工 阶段 都 有 标价 . 
比如 棉花 在 初级 市 场 就 有 原 棉 、 棉 纱 、 棉 布 等 各 种 价格 形式 . 批发 价格 指数 在 英 
美 已 经 有 一 百 多 年 的 历史 了 . 

批发 价格 指数 所 覆盖 的 商品 数量 在 工业 大 国都 有 数 千 种 , 而 在 多 数 国家 常常 
只 有 一 二 百 种 ， 如 果 只 需要 关于 一 般 的 总 体 商 品 的 指数 , 那么 数量 少 些 也 够 用 
了 . 但 如 果 需 要 许多 分 类 子 指数 (subindex), 则 需要 包括 很 多 的 品种 . 这 些 类 别 包 
括 诸 如 初级 产品 、 中 间 产 品 和 最 终 产品 , 或 者 耐用 商品 和 不 耐用 商品 等 等 .在 美 
国有 15 个 范畴 , 有 接近 100 个 子 类 (比如 新 鲜 水 果 、 谷 物 等 ) 及 大 量 的 产品 类 (如 苹 
果 、 香 燕 、 大 麦 玉 米 等 ). 对 每 一 种 范畴 都 有 按 月 度 公布 的 指数 . 在 工业 不 是 那么 
多 元 化 的 国家 , 类 别 的 数量 就 要 少 些 . 各 个 国家 的 批发 价格 指数 都 能 够 很 好 地 代 
表 原 材料 和 标准 产品 , 而 对 于 诸如 重型 电气 设备 的 复杂 产品 则 在 先进 的 工业 化 国 
家 代表 不 足 甚至 忽略 . 这 在 总 批发 价格 指数 上 造成 一 个 向 上 的 偏差 , 因为 有 理由 相 
信 , 技术 改进 在 改进 复杂 商品 上 是 很 重要 的 . 


11.6 小结 


本 章 简 单 介绍 了 指数 的 知识 .指数 在 统计 上 就 是 一 些 统计 量 . 它 可 以 出 现在 
任何 领域 . 在 经 济 领 域 , 指数 多 为 一 些 统计 观测 值 的 加 权 平 均 , 而 且 以 过 去 类 似 观 
测 值 的 平均 作为 基础 的 比例 或 百分比 的 形式 出 现 . 我 们 既 没有 给 出 什么 理论 , 也 
没有 给 出 习题 . 由 于 各 种 指数 是 为 其 各 自 目的 服务 的 , 一 般 由 有 关 领 域 的 权威 、 
首脑 或 专家 来 确定 . 实际 上 , 永远 无 法 从 理论 上 说 明 一 种 指数 是 绝对 最 优 的 . 现存 
的 指数 都 有 各 种 各 样 的 毛病 . 但 是 有 多 少 人 愿意 放弃 他 们 熟悉 而 又 实用 (虽然 有 不 
足 ) 的 事物 而 去 采用 一 些 陌生 的 新 事物 呢 ? 
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附录 A ” 练习: 熟练 使 用 RR 软件 


实践 1( 最 初 几 步 ): 

x=1:100# 把 1,2,... ,100 个 整数 向 量 赋值 到 x 

(x=1:100) # 同 上 ， 只 不 过 显示 出 来 

sample (x,20) # 从 1,... ,100 中 随机 不 放 回 地 抽取 20 个 值 作为 样本 

set .seed(0) ;sample(1:10,3)# 先 设 随 机 种 子 再 抽样 . 

# 从 1,.. . ,200000 中 随机 不 放 回 地 抽取 10000 个 值 作为 样本 : 

z=sample (1:200000,10000) 

z[1:10]# 方 括号 中 为 同 量 z 的 下 标 

y=c(1,3,7,3,4,2) 

z [y]# 以 y 为 下 标的 z 的 元 素 值 

(z=sample (x ,100,rep=T))# 从 x 放 回 地 随机 抽取 100 个 值 作为 样本 

(zl1=unique(z) ) 

length(z1)#z 中 不 同 的 元 素 个 数 

xz=setdiff(x,z) #x 和 z 之 间 的 不 同 元 素 -- 集 合 差 

sort(union(xz,z) )# 对 xz 及 z 的 并 的 元 素 从 小 到 大 排序 

setequal (union (xz,zZ) ,x) # 对 xz 及 z 的 并 的 元 素 与 x 是 否 一 样 

intersect(1:10,7:50) # 两 个 数据 的 交 

sample(1:100,20,prob=1:100)# 从 1:100 中 不 等 概率 随机 抽样 ， 
# 各 数目 抽 到 的 概率 与 1:100 成 比例 

实践 2( 一 些 简单 运算 ): 

pi *10*2 # 能 够 用 ?”*” 来 看 基本 算术 运算 方法 ，pi 是 圆周 率 

"*" (Pi,，" "(10,2)) # 和 上 面 一 样 ， 有 些 繁 琐 ， 是 吧 ! 没有 人 这 人 么 用 

pi * 〈1:10) >-2.3# 可 以 对 问 量 求 指数 媒 

x = pi * 10°2 

x 

print (x) # 和 上 面 一 样 

(x=pi *10~2) # 赋 值 带 打印 

pi~(1:;5) # 指 数 也 可 以 是 向 量 

print (x,，digits = 12)# 输 出 x 的 12 位 数学 

实践 3( 关 于 RR 对象 的 类 型 等 ): 

X=pi*10°2 

class(x) #x 的 class 

typeof (x) #X 的 type 

class(cargs)#cargs 是 一 个 R 中 目 带 的 数据 


typeof (cars) #cars 的 type 
nameg(cars)#cars 数 据 的 变量 名 字 
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summary(cars) #cars 的 汇总 
head(cars)#cars 的 头 几 行 数据 ， 和 cars[1:6,] 相 同 
tail(cars) #cars 的 最 后 几 行 数据 z 
str(cars)# 也 是 汇总 

row.names(cars) # 行 名 字 
attributes(cars)#cars 的 一 些 信息 

class (dist~speed)# 公 式 形式 ， "~ 左边 是 因 变 量 ,右边 是 自 变 量 
plot (dist -speed,cars)# 两 个 变量 的 散 点 图 
plot(cars$speed,cars$qist) # 同 上 


实践 4( 包 括 简 单 自 变 量 为 定量 变量 及 定性 变量 的 回归 ): 


ncol(cars) :nrow(cars) #cars 的 行列 数 

dim(cars) #cars 的 维 数 

lm(dist ~ speed，data = cars)# 以 dist 为 因 变量 , speed 为 目 变量 做 0LS 

cars$qspeed =cut(cars$speed, breaks=quantile(cars$speed), 
include .lowest = TRUE) # 增 加 定性 变量 qspeed， 四 分 位 点 为 分 割 所 

names (cars) # 数 据 cars 多 了 一 个 变量 

cars[3]# 第 三 个 变量 的 值 和 cars[,3] 类 似 

table (cars[3] )# 列 表 

is.factor(cars$qspeed) 

plot(dist ~ qspeed, data = cars)# 点 出 箱 线 图 

(a=lm(dist ~ qspeed, data = cars) )# 拟 合 线性 模型 (简单 最 小 二 乘 回归 ) 

summary(a)# 回 归结 果 ( 包 括 一 些 检 验 ) 


实践 5( 简 单 样本 描述 统计 量 等 等 ): 


x <- round(runif (20,0,20) ，digits=2)# 四 舍 五 入 
summary (XxX) # 汇 总 

min(x) ;max(x) # 极 值 ， 与 range(x) 类 似 

median(x) # 中 位 数 (median) 

mean (x) # 均值 (mean) 

var (x) # 方 差 (variance) 

sd (x) # 标准 差 (gtandard deviation) ,为 方差 的 平方 根 
sqrt (var (x)) # 平 方 根 

rank (x) # 秩 (rank) 

order (x)# 升 此 排列 的 x 的 下 标 

order (x,decreasing = T)# 降 窜 排 列 的 x 的 下 标 
x[order(x)] # 和 sort (x) 相同 

sort (x) # 同 上 : 升 棒 排列 的 x 

sort (x,decreasing=T)#sort (x,dec=T) 降 晕 排列 的 x 
sum(x) ;length (x)# 元 素 和 及 向 量 元 素 个 数 
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round(x) # 四 舍 五 入 ,等 于 round(x,0) ,而 round(x,5) 为 留 到 小 数 点 后 5 位 
fivenum(x) # 五 数 汇总 ，quantiles 

quantile(x) # 分 位 点 quantiles (different convention) 有 多 种 定义 
quantile(x, c(0,.33,.66,1)) 

mad(x) # "median average distance": 

cummax (x)# 累 积 最 大 值 

cummjin(x)# 累 积 最 小 值 

cumprod (x)# 累 积 积 

cor (x ,sin(x/20)) # 线 性 相关 系数 (correlation) 


x=rnorm(200)#200 个 随机 正 态 数 赋值 到 x 

hist(x, col = "light blue'")# 百 方 图 (histogram) 
rug(x) # 在 直方 图 下 面 加 上 实际 点 的 大 小 
stem(x)# 莹 叶 图 

x <- rnorm(500) 

y <- xX + rnorm(500) # 构 造 一 个 线性 关系 

plot (y”x) # 散 点 图 

a=lm(y~x) # 做 回归 

abline (a,col="red")# 或 者 abline (lm(y~x) ,col="red") 散 点 图 加 拟 合 线 
print ("Hello World!") 

paste("x 的 最 小 值 ="，min(x)) # 打 印 

demo (graphics)# 演 示 男 图 (点 Enter 来 切换 ) 


实践 7( 复 数 运算 和 求 函 数 极 值 ): 


(2+4i)~-3.5+(2i+4.5)*(-1.7-2.3i)/((2.6-7i)*(-4+5.1i))# 复 数 运算 
# 下 面 构造 一 个 10 维 复 向 量 ， 实 部 和 虚 部 均 为 10 个 标准 状态 样本 点 : 
(z <-complex(real=rnorm(10), imaginary =rnorm(10))) 
complex (re=rnorm(3) , im=rnorm(3) )#3 维 复 丫 量 

Re (z) # 实 部 

Im(z) # 虞 部 

Mod (z) # 模 

Arg(z) # 辐 角 

choose (3,2) # 组 合 

factorial(6)# 排 列 61 

# 解 方程 : 

f=function(x) x “3-2*x-—1 

uniroot (f,c(0,2))# 太 代 求 根 

# 如 果 知 道 根 为 极 值 

f=function(x) X>2+2#+X+1 # 定 义 一 个 二 次 函数 
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optimize(f,c(-2,2))# 在 区 间 (-2,2) 间 求 极 值 


实践 8( 字 符 型 向 量 ): 

a=factor(letters[1:10] )#1letters: 小 写字 母 的 向 量 ,LETTERS :大 写字 母 
a[3]="w" ”” # 不 行 ! 会 给 出 警告 

a=as .character(a) # 转 换 一 下 

a[3]="w" # 可 以 了 

a;factor(a) # 丙 种 不 同 的 类 型 

实践 9( 数 据 输入 输出 ): 


x=scan()# 从 屏幕 输入 数据 ， 可 以 键入 ， 也 可 以 粘贴 ,可 多 行 输入 , 空 行 后 Enter 
1.5 2.6 3.7 2.1 8.9 12 -1.2 -4 


x=c(1.5,2.6,3.7,2.1,8.9,12,-1.2,-4)# 等 价 于 上 面 
=read.table(file.choose() ,header=T)# 从 列表 中 选择 有 变量 名 的 数据 

setwda(“f:/2010stat”)# 或 setwd("f:\2010stat")# 建 立 工 作 路 径 

(x=rnorm(20)) # 给 x 赋 值 20 个 标准 正 态 数据 值 

#( 注 :有 常见 分 布 的 随机 数 ， 分 布 函 数 , 密 度 函 数 及 分 位 数 函 数 ) 

write(x,"f:/2010stat/test .txt")# 把 数据 写 入 文件 (路 径 要 对 ) 

y=scan("f:/2010stat/test .txt");y # 扫 描 文 件数 值 数 据 到 y 

y=iris;y[1:5,] ;strly) #iris 是 R 自 带 数据 

write.table(y, "test.txt" ,row.names=F)# 把 数据 写 入 文本 文件 

w=read.table("f:/2010stat/test.txt",header=T)# 读 带 有 变量 名 的 数据 

str(w) # 汇 总 

write.csv(y, "test.csv")# 把 数据 写 入 csv 文 件 

v=read.csv("f:/2010stat/test.csv")# 读 入 csv 数 据 文件 

str(v) # 沪 总 

data=read.table("clipboard")# 读 入 剪贴 板 的 数据 


实践 10( 序 列 等 等 ): 


(z=seq(-1,10,length=100) )#-1 到 10 等 间隔 的 100 个 数 的 序列 
z=seq(-1,10,Len=100)# 和 上 面 等 价 写 法 

(z=seq(10,-1,-0.1)) #10 到 -1 间隔 为 -0.1 的 序列 
(x=rep(1:3,3))  # 三 次 重复 1:3 

(x=rep(3:5,1:3)) # 自 己 看 ， 这 又 是 什么 呢 ? 
x=rep(c(1,10),c(4,5)) 

w=c(1,3,X,zZ) ;w[3]# 把 数据 (包括 向 量 ) 组 合 (combine) 成 一 个 向 量 
x=rep(0,10) ;z=1:3;x+z # 问 量 加 法 (如 果 长 度 不 同 ，R 如 何 给 出 警告 和 结果 ?) 
x*z ”上 # 癌 量 乘 法 

rev (x)# 磊 倒 次 序 

z=c("no cat", "has ",'"nine",'"tails") # 字 符 向 量 
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z[1]=="no cat'" # 双 等 号 为 还 辑 等 式 

Z=1:5 

z[7]=8;z # 什 么 结果 ? 注 :NA 为 缺失 值 (Cnot available) 
Z=NULL 

z[c(1,3,5)]=1:3; 

z 

rnorm(10) [c(2,5)] 

zf[-c(1,3)]# 去 掉 第 1、3 元 素 

z=sample(1:100,10);z 

which (z==max(z) )# 给 出 最 大 值 的 下 标 


实践 11( 和 矩阵 ): 


x=sample (1:100,12) ;x # 抽 样 

all (x>0) ;all (x!=0) ;any (x>0) ; (1:10) [x>0]# 远 辑 符 号 的 应 用 
diff (x) # 差 分 

diff (x,lag=2) # 差 分 

x=matrix(1:20,4,5) ;x # 和 矩阵 的 构造 
x=matrix(1:20,4,5,byrow=T) ;x# 和 矩阵 的 构造 ， 按 行 排列 
t(x) # 甜 阵 转 置 

x=matrix(sample(1:100,20),4,5) 

Dx*X 

XxX+Db 

y=matrix(sample(1:100,20),5,4) 

x+t (y) # 和 矩阵 之 间 相 加 

(z=x%*X%Wy) # 和 矩阵 乘法 

Zz1i=solve (Zz) # solve(a,b) 可 以 解 ax=hb 方 程 

zl1%*%z # 应 该 是 单位 癌 量 ， 但 浮 点 运算 不 可 能 得 到 干净 的 0 
round (zi%*%z,14)  # 四 舍 五 入 

b=solve (z,1:4) ; b # 解 联 立 方程 


实践 12( 和 矩阵 继续 ): 
nrow(x) :ncol (x) ;dim(x)# 行 列 数 日 


x=matrix(rnorm(24) ,4,6) 

x[c(2,1) ,]# 第 2 和 第 1 行 

x[,c(1,3)] # 第 1 和 第 3 列 

x[2,1] # 第 [2,1] 元 素 

x[x[,1]>0,1] # 第 1 列 大 于 0 的 元 素 
sum(x[,1]>0) # 第 1 列 大 于 0 的 元 素 的 个 数 
sum(x[,1]<=0) # 第 1 列 不 大 于 0 的 元 素 的 个 数 
xf[,-c(1,3)]# 没 有 第 1、3 列 的 x. 
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diag(x) #zx 的 对 角 线 元 素 

diag(1:5) # 以 1:5 为 对 角 线 ,其 他 元 素 为 0 的 对 角 线 矩阵 
diag(5) #5 维 单位 矩阵 

x[-2,-c(1,3)]# 没 有 第 2 行 、 第 1、3 列 的 x 
x[x[,1]>0&x[,3]<=1,1]# 第 1 列 >0 并 且 第 3 列 <=1 的 第 1 列 元 素 
x[x[,2]>0|x[,1]<.51,1]# 第 1 列 <.51 或 者 第 2 列 >0 的 第 1 列 元 素 
.x[!x[,2]<.51,1]# 第 1 列 中 相应 于 第 2 列 中 >=.51 的 元 素 
apply(x,1,mean)# 对 行 ( 第 一 维 ) 求 均值 

apply (x,2,sum)# 对 列 (第 二 维 ) 求 和 
x=matrix(rnorm(24) ,4,6) 

x[lower.tri(x)]=0;x # 得 到 上 三 角 阵 ， 

# 为 得 到 下 三 角 阵 ， 用 x [upper .tri(x)]=0) 

实践 13( 高 维 数 组 ): 

x=array (runif (24) ,c (4,3,2)) 

x# 从 24 个 均匀 分 布 的 样本 点 构造 4 乘 3 乘 2 的 三 维 数组 
is.matrix(x) 

dim(x)# 得 到 维 数 (4,3,2) 

is.matrix(x[1,,])# 部 分 三 维 数 组 是 和 矩阵 

x=array (1:24,c(4,3,2)) 

x[c(1,3),,] 

x=array (1:24,c(4,3,2)) 

apply(x,1,mean)  # 可 以 对 部 分 维 做 均值 运算 
apply(x,1:2,sum)  # 可 以 对 部 分 维 做 求 和 运算 
apply(x,c(1,3) ,prod) # 可 以 对 部 分 维 做 求 乘 积 运 算 

实践 14( 和 矩阵 与 向 量 之 间 的 运算 ): 

x=matrix(1:20,5,4) #5 乘 4 矩阵 

sVeep(x,1,1:5,"#")# 把 问 量 1:5 的 每 个 元 素 乘 到 每 一 行 
sweep(x,2,1:4,"+")# 把 向 量 1:4 的 每 个 元 素 加 到 每 一 列 

X*1:5 

hsweep (x,2,1:4,"+")# 标 准 化 , 即 每 一 元 素 减 去 该 列 均值 , 除 以 该 列 标准 差 : 
(x=matrix(sample(1:100,24) ,6,4)); (x1=scale (x)) 
(x2=scale (x,scale=F) )# 自 己 观察 并 总 结 结果 

(x3=scale (x,center=F)) # 有 自己 观察 并 总 结 结果 

round(apply (x1,2,mean) ,14) # 自 己 观 察 并 总 结 结果 

apply (x1,2,sd)# 日 己 观 察 并 总 结 结果 

round(apply (x2,2,mean) ,14) ;apply (x2,2,sd)# 自 己 观 察 并 总 结 结果 
round(apply (x3,2,mean) ,14) ;apply (x3,2,sd)# 自 己 观 察 并 总 结 结果 


实践 15( 缺 失 值 ,数据 的 合并 ): 
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airquality # 有 人 缺 失 值 (NA) 的 R 目 带 数 据 
complete.cases(airduality)# 浏 断 每 行 有 没有 缺失 值 
which(complete.cases(airquality)==F) # 有 人 铅 失 值 的 行 号 
sum(complete.cases(airquality))# 完 整 观测 值 的 个 数 
na.omit (airquality) # 删 去 缺失 值 的 数据 

# 附 加 ， 模 或 竖 合 并 数据 : append,cbind,rbind 
x=1:10;x[12]=3 

(x1l=append (x,77,after=5)) 

cbind(1:5,rnorm(5)) 

rbind(1:5,rnorm(5)) 

cbind(1:3,4:6) ;rbind(1:3,4:6) # 去 掉 矩 阵 重复 的 行 
(x=rbind(1:5,runif(5),runif(5),1:5,7:11)) 
x[!duplicated (x),] 

unique (x) 

实践 16(list): 

#1ist 可 以 是 任何 对 象 ( 包 括 1ist 本 身 ) 的 集合 
2Z=l]ist(1:3,Tom=c(1:2,a=list('"R",]Jetters[1:5]) ,w="hi!'")) 
z[[1]|];z[[2]] 

Z$T 

z$T$a2 

z$T[L3]] 

Z$T$w 


实践 17( 条 形 图 和 表 ): 


x =scan()#30 个 顾客 在 五 个 品牌 中 的 挑选 
333414213253125234225314224352 


barplot (x) # 不 合 题 意 的 图 

table (x) # 制 表 

barplot (table (x) ) # 正 确 的 图 

barplot (table(x)/length(x)) # 比 例 图 (和 上 图 形状 一 样 ) 
table(x)/length(x) 

实践 18( 形 成 表格 ): 

library (MASS)# 载 入 软件 包 MASS 

quine #MASS 所 带 数 据 

attach(quine)# 把 数据 变量 的 名 字 放 入 内 存 

# 下 面 是 从 该 数据 得 到 的 各 种 表格 

table(Age) 

table(Sex, Age); tab=xtabs(”Sex + Age, gquine); unclass(tab) 
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tapply(Days, Age, mean) 
tapply(Days, list(Sex, Age), mean) 
detach(quine) #attach 的 逆 运 行 


实践 19( 如 何 写 函数 ): 
# 下面 这 个 函数 是 按照 定义 (编程 简单 ， 但 效率 不 高 ) 求 n 以 内 的 素数 


ss=function(n=100) {z=2: 

for (i in 2:n)if(any(i%%2:(i~1)==0)==F)z=c(z,i):return(z) } 
fix(ss) # 用 来 修改 任何 函数 或 编写 一 个 新 函数 

ss() # 计 算 100 以 内 的 素数 

t1i=Sys .time() # 记 了 录 时 间 点 

ss(10000) # 计 算 10000 以 内 的 素数 

Sys .time()-tl # 费 了 多 少时 间 
system.time(ss(10000) )# 计 算 执 行 ss (10000) 所 用 时 间 

# 闲 数 可 以 不 写 return ,这 时 最 后 一 个 值 为 return 的 值 . 

# 为 了 输出 多 个 值 最 好 使 用 list 输 册 

实践 20( 面 图 ): 

x=seq(-3,3,len=20) ;y=dnorm(x)# 产 生 数 据 

w= data.frame (XxX,y)# 合 并 x ,成 为 数据 w 

par (mfcol=c(2,2))# 准 备 画 四 个 图 的 地 方 

plot(y ”Xx，w,main=" 下 态 密 度 函 数 ") 

plot(y ”x,w,type="l1"，main=" 正 态 密 度 函 数 '") 

plot(y ”Xx,w,type="o"，main='" 正 态 密度 函数 ") 

plot(y ”x,Ww,type="b" ,main=" 正 态 密度 函数 ') 

par (mfcol=c(1,1))# 取 消 par (mfcol=c (2,2)) 

实践 21( 色 彩 和 符号 等 调节 ): 
plot(1,1,xlim=c(1,7.5),ylim=c(0,5),type="n') # 团 出 框架 

# 在 plot 命 令 后 面 追 加 点 (如 要 追加 线 可 用 1ines 函 数 ): 
points(1:7,rep(4.5,7) ,cex=seq(1,4,1=7) ,col=1:7, pch=0:6) 
text (1:7,rep(3.5,7),1labels=paste(0:6,1letters [1:7]) ,cex=seq(1,4,1=7) ， 
col=1:7)# 在 指定 位 置 加 文字 
points(1:7,rep(2,7)，pch=(0:6)+7)# 点 出 符号 7 到 13 
text((1:7)+0.25，rep(2,7) ，paste((0:6)+7))# 加 符号 号 码 
points(1:7,rep(1,7), pch=(0:6)+14) # 点 出 符号 14 到 20 
text((1:7)+0.25，rep(1,7)，paste((0:6)+14)) # 加 符号 号 码 

# 这 些 关 于 符号 形状 、 大 小 、 颜 色 以 及 其 他 画图 选项 的 说 明 可 用 "?par" 来 查看 


